| 提要 | 第1-7页 |
| 第一章 绪论 | 第7-11页 |
| ·搜索引擎行业发展现状 | 第7-8页 |
| ·本文主要工作 | 第8-11页 |
| ·网页信息提取 | 第9页 |
| ·重复词语的检测 | 第9-10页 |
| ·搜索引擎词典与新词过滤分析 | 第10页 |
| ·结论与展望 | 第10-11页 |
| 第二章 搜索引擎与分词技术 | 第11-22页 |
| ·搜索引擎工作过程与原理 | 第11-16页 |
| ·搜索引擎的工作过程 | 第11-12页 |
| ·搜索引擎各部分的组成关系 | 第12-15页 |
| ·搜索引擎的相关质量指标 | 第15-16页 |
| ·搜索引擎与中文分词技术 | 第16-21页 |
| ·中文分词在搜索引擎中应用的必要性 | 第16-17页 |
| ·目前主要应用的中文分词方法 | 第17-20页 |
| ·中文分词所面临的问题 | 第20-21页 |
| ·小结 | 第21-22页 |
| 第三章 网页信息提取 | 第22-34页 |
| ·网页内容的获取 | 第22-25页 |
| ·HTTPLOOK 的使用 | 第22-23页 |
| ·获取网页内容的具体方法 | 第23-25页 |
| ·网页内容的解析 | 第25-33页 |
| ·HTML 简介 | 第25-28页 |
| ·HTMLPARSER 的特点及应用 | 第28-31页 |
| ·网页解析的具体过程 | 第31-33页 |
| ·小结 | 第33-34页 |
| 第四章 利用水平分割法求最大重复串 | 第34-64页 |
| ·关于后缀数组 | 第34-40页 |
| ·基本概念 | 第34-35页 |
| ·后缀数组的构造方法 | 第35-37页 |
| ·最长公共前缀 | 第37-40页 |
| ·利用水平分割法求字符串的最大重复子串 | 第40-63页 |
| ·定义 | 第40-42页 |
| ·后缀结构及REPEATS 算法 | 第42-43页 |
| ·利用水平分割法求MAXIMAL REPEATS | 第43-51页 |
| ·计算所有的MAXIMAL NE-REPEATS | 第51-60页 |
| ·计算所有的MAXIMAL SNE-REPEATS | 第60-63页 |
| ·小结 | 第63-64页 |
| 第五章 分词字典的结构与新词的排查 | 第64-70页 |
| ·分词词典的组织与实现 | 第64-67页 |
| ·分词词典的物理结构 | 第64-65页 |
| ·词典的逻辑组织 | 第65-67页 |
| ·新词的排查 | 第67-69页 |
| ·词典的检索 | 第67-69页 |
| ·新词的过滤 | 第69页 |
| ·小结 | 第69-70页 |
| 第六章 结论与展望 | 第70-73页 |
| ·目标实现及不足之处 | 第70-71页 |
| ·已完成工作的效率和质量分析 | 第70-71页 |
| ·本方案的不足之处 | 第71页 |
| ·未来工作的展望和下一步工作设想 | 第71-73页 |
| ·现有工作的完善 | 第71-72页 |
| ·基于INTERNET 的多语言新词语检测 | 第72-73页 |
| 参考文献 | 第73-77页 |
| 摘要 | 第77-80页 |
| ABSTRACT | 第80-83页 |
| 致谢 | 第83页 |