搜索引擎分类展示技术研究
摘要 | 第4-5页 |
Abstract | 第5页 |
第1章 绪论 | 第8-15页 |
1.1 课题来源 | 第8页 |
1.2 课题背景及意义 | 第8-9页 |
1.3 国内外研究现状分析 | 第9-13页 |
1.3.1 搜索引擎的研究现状 | 第9-11页 |
1.3.2 文本分类的研究现状 | 第11-13页 |
1.3.3 网页分类的研究现状 | 第13页 |
1.4 本文的研究内容及结构 | 第13-15页 |
第2章 网页文本预处理技术 | 第15-30页 |
2.1 网页文本信息特点 | 第15-16页 |
2.2 网页正文抽取 | 第16-20页 |
2.2.1 正文抽取技术概述 | 第16-17页 |
2.2.2 基于网页分块的正文抽取算法 | 第17-20页 |
2.3 文本预处理 | 第20-29页 |
2.3.1 向量空间模型 | 第20-21页 |
2.3.2 中文文本分词 | 第21-24页 |
2.3.3 去停用词 | 第24页 |
2.3.4 特征选择 | 第24-28页 |
2.3.5 特征加权 | 第28-29页 |
2.4 本章小结 | 第29-30页 |
第3章 基于支持向量机的文本分类 | 第30-43页 |
3.1 文本分类概述 | 第30-31页 |
3.2 基于 SVM 的文本分类器设计 | 第31-42页 |
3.2.1 分类体系构建 | 第31-34页 |
3.2.2 支持向量机算法 | 第34-37页 |
3.2.3 基于决策树扩展的多类别分类模型 | 第37-41页 |
3.2.4 基于多重特征选择的层次分类模型 | 第41-42页 |
3.3 本章小结 | 第42-43页 |
第4章 基于 Lucene 的索引及检索设计 | 第43-53页 |
4.1 全文索引技术概述 | 第43-44页 |
4.2 开源全文搜索引擎 Lucene 概述 | 第44-48页 |
4.2.1 Lucene 系统架构分析 | 第44-45页 |
4.2.2 Lucene 索引文件分析 | 第45-48页 |
4.3 分类索引设计 | 第48-50页 |
4.4 分类检索设计 | 第50-52页 |
4.5 本章小结 | 第52-53页 |
第5章 系统实现与结果分析 | 第53-62页 |
5.1 系统整体结构 | 第53页 |
5.2 实验结果及分析 | 第53-61页 |
5.2.1 实验数据及方法 | 第53-54页 |
5.2.2 网页分类的实验结果及分析 | 第54-56页 |
5.2.3 搜索引擎分类展示的实验结果及分析 | 第56-61页 |
5.3 本章小结 | 第61-62页 |
结论 | 第62-63页 |
参考文献 | 第63-68页 |
致谢 | 第68页 |