字符串理论研究与应用探讨

提要	第1-7页
第一章绪论	第7-11页
·搜索引擎行业发展现状	第7-8页
·本文主要工作	第8-11页
·网页信息提取	第9页
·重复词语的检测	第9-10页
·搜索引擎词典与新词过滤分析	第10页
·结论与展望	第10-11页
第二章搜索引擎与分词技术	第11-22页
·搜索引擎工作过程与原理	第11-16页
·搜索引擎的工作过程	第11-12页
·搜索引擎各部分的组成关系	第12-15页
·搜索引擎的相关质量指标	第15-16页
·搜索引擎与中文分词技术	第16-21页
·中文分词在搜索引擎中应用的必要性	第16-17页
·目前主要应用的中文分词方法	第17-20页
·中文分词所面临的问题	第20-21页
·小结	第21-22页
第三章网页信息提取	第22-34页
·网页内容的获取	第22-25页
·HTTPLOOK 的使用	第22-23页
·获取网页内容的具体方法	第23-25页
·网页内容的解析	第25-33页
·HTML 简介	第25-28页
·HTMLPARSER 的特点及应用	第28-31页
·网页解析的具体过程	第31-33页
·小结	第33-34页
第四章利用水平分割法求最大重复串	第34-64页
·关于后缀数组	第34-40页
·基本概念	第34-35页
·后缀数组的构造方法	第35-37页
·最长公共前缀	第37-40页
·利用水平分割法求字符串的最大重复子串	第40-63页
·定义	第40-42页
·后缀结构及REPEATS 算法	第42-43页
·利用水平分割法求MAXIMAL REPEATS	第43-51页
·计算所有的MAXIMAL NE-REPEATS	第51-60页
·计算所有的MAXIMAL SNE-REPEATS	第60-63页
·小结	第63-64页
第五章分词字典的结构与新词的排查	第64-70页
·分词词典的组织与实现	第64-67页
·分词词典的物理结构	第64-65页
·词典的逻辑组织	第65-67页
·新词的排查	第67-69页
·词典的检索	第67-69页
·新词的过滤	第69页
·小结	第69-70页
第六章结论与展望	第70-73页
·目标实现及不足之处	第70-71页
·已完成工作的效率和质量分析	第70-71页
·本方案的不足之处	第71页
·未来工作的展望和下一步工作设想	第71-73页
·现有工作的完善	第71-72页
·基于INTERNET 的多语言新词语检测	第72-73页
参考文献	第73-77页
摘要	第77-80页
ABSTRACT	第80-83页
致谢	第83页