摘要 | 第5-7页 |
Abstract | 第7-8页 |
第1章 绪论 | 第9-19页 |
1.1 研究背景和意义 | 第9-11页 |
1.2 国内外研究现状 | 第11-17页 |
1.2.1 微软必应搜索引擎 | 第11-12页 |
1.2.2 谷歌搜索引擎 | 第12-13页 |
1.2.3 360搜索引擎 | 第13-14页 |
1.2.4 百度搜索引擎 | 第14-17页 |
1.3 本论文研究内容和特色 | 第17页 |
1.4 论文组织结构 | 第17-19页 |
第2章 相关理论 | 第19-27页 |
2.1 文本挖掘 | 第19-20页 |
2.1.1 文本挖掘的概念 | 第19页 |
2.1.2 文本挖掘的过程 | 第19-20页 |
2.1.3 文本挖掘关键技术和文本关联分析 | 第20页 |
2.2 搜索引擎 | 第20-25页 |
2.2.1 倒排索引技术 | 第21-22页 |
2.2.2 关键词tf-idf权重 | 第22-23页 |
2.2.3 搜索引擎的性能评价指标 | 第23-25页 |
2.3 本章小结 | 第25-27页 |
第3章 基于文本挖掘的搜索引擎系统 | 第27-35页 |
3.1 文本相似度(关联度)的挖掘 | 第27-29页 |
3.1.1 分词 | 第27页 |
3.1.2 生成两篇文档的单词集合 | 第27-28页 |
3.1.3 合并两篇文档的单词集合 | 第28页 |
3.1.4 生成两篇文档的特征向量 | 第28页 |
3.1.5 计算两篇文档的余弦相似度 | 第28-29页 |
3.2 建立搜索引擎的索引 | 第29-32页 |
3.2.1 建立词典倒排索引 | 第29-30页 |
3.2.2 建立单词和网页的倒排索引 | 第30-31页 |
3.2.3 建立页面单词权重索引和页面模索引 | 第31-32页 |
3.3 处理用户查询 | 第32-33页 |
3.3.1 查询词纠错 | 第32页 |
3.3.2 找到包含用户查询词的文档集合 | 第32页 |
3.3.3 对候选文档集合进行排序 | 第32-33页 |
3.4 本章小结 | 第33-35页 |
第4章 轻量级搜索引擎的性能优化 | 第35-43页 |
4.1 利用epoll模型代替传统的select,poll模型 | 第35-36页 |
4.2 建立用户查询历史纪录缓存 | 第36-38页 |
4.2.1 查询词纠错结果缓存 | 第36-37页 |
4.2.2 查询词和标题摘要缓存 | 第37页 |
4.2.3 标题和标题对应的内容缓存 | 第37-38页 |
4.3 改进传统的距离编辑算法 | 第38-40页 |
4.4 改进搜索引擎的索引算法 | 第40-42页 |
4.4.1 实现方法和算法 | 第40-42页 |
4.4.2 改进算法试验结果与分析 | 第42页 |
4.5 使用多线程取代多进程 | 第42页 |
4.6 本章小结 | 第42-43页 |
第5章 搜索引擎系统实现 | 第43-53页 |
5.1 系统结构和运行流程图 | 第43-44页 |
5.2 相关类及其说明 | 第44-49页 |
5.3 功能说明 | 第49-52页 |
5.3.1 主线程 | 第49-50页 |
5.3.2 工作线程工作流程 | 第50-51页 |
5.3.3 缓存线程管理系统缓存 | 第51-52页 |
5.3.4 查询流程 | 第52页 |
5.4 本章小结 | 第52-53页 |
第6章 实验及结果分析 | 第53-57页 |
6.1 处理汉字的编辑距离 | 第53页 |
6.2 建立磁盘缓存文件 | 第53页 |
6.3 网页搜索 | 第53-54页 |
6.3.1 建立倒排索引 | 第53-54页 |
6.3.2 网页查询功能测试 | 第54页 |
6.3.3 加入缓存管理线程管理历史记录缓存 | 第54页 |
6.4 论文实验过程中遇到的疑难问题和解决方案 | 第54-55页 |
6.5 本章小结 | 第55-57页 |
第7章 总结和展望 | 第57-59页 |
参考文献 | 第59-63页 |
致谢 | 第63-65页 |
在校期间发表的论文 | 第65页 |