基于文本挖掘的轻量级搜索引擎

摘要	第5-7页
Abstract	第7-8页
第1章绪论	第9-19页
1.1 研究背景和意义	第9-11页
1.2 国内外研究现状	第11-17页
1.2.1 微软必应搜索引擎	第11-12页
1.2.2 谷歌搜索引擎	第12-13页
1.2.3 360搜索引擎	第13-14页
1.2.4 百度搜索引擎	第14-17页
1.3 本论文研究内容和特色	第17页
1.4 论文组织结构	第17-19页
第2章相关理论	第19-27页
2.1 文本挖掘	第19-20页
2.1.1 文本挖掘的概念	第19页
2.1.2 文本挖掘的过程	第19-20页
2.1.3 文本挖掘关键技术和文本关联分析	第20页
2.2 搜索引擎	第20-25页
2.2.1 倒排索引技术	第21-22页
2.2.2 关键词tf-idf权重	第22-23页
2.2.3 搜索引擎的性能评价指标	第23-25页
2.3 本章小结	第25-27页
第3章基于文本挖掘的搜索引擎系统	第27-35页
3.1 文本相似度(关联度)的挖掘	第27-29页
3.1.1 分词	第27页
3.1.2 生成两篇文档的单词集合	第27-28页
3.1.3 合并两篇文档的单词集合	第28页
3.1.4 生成两篇文档的特征向量	第28页
3.1.5 计算两篇文档的余弦相似度	第28-29页
3.2 建立搜索引擎的索引	第29-32页
3.2.1 建立词典倒排索引	第29-30页
3.2.2 建立单词和网页的倒排索引	第30-31页
3.2.3 建立页面单词权重索引和页面模索引	第31-32页
3.3 处理用户查询	第32-33页
3.3.1 查询词纠错	第32页
3.3.2 找到包含用户查询词的文档集合	第32页
3.3.3 对候选文档集合进行排序	第32-33页
3.4 本章小结	第33-35页
第4章轻量级搜索引擎的性能优化	第35-43页
4.1 利用epoll模型代替传统的select,poll模型	第35-36页
4.2 建立用户查询历史纪录缓存	第36-38页
4.2.1 查询词纠错结果缓存	第36-37页
4.2.2 查询词和标题摘要缓存	第37页
4.2.3 标题和标题对应的内容缓存	第37-38页
4.3 改进传统的距离编辑算法	第38-40页
4.4 改进搜索引擎的索引算法	第40-42页
4.4.1 实现方法和算法	第40-42页
4.4.2 改进算法试验结果与分析	第42页
4.5 使用多线程取代多进程	第42页
4.6 本章小结	第42-43页
第5章搜索引擎系统实现	第43-53页
5.1 系统结构和运行流程图	第43-44页
5.2 相关类及其说明	第44-49页
5.3 功能说明	第49-52页
5.3.1 主线程	第49-50页
5.3.2 工作线程工作流程	第50-51页
5.3.3 缓存线程管理系统缓存	第51-52页
5.3.4 查询流程	第52页
5.4 本章小结	第52-53页
第6章实验及结果分析	第53-57页
6.1 处理汉字的编辑距离	第53页
6.2 建立磁盘缓存文件	第53页
6.3 网页搜索	第53-54页
6.3.1 建立倒排索引	第53-54页
6.3.2 网页查询功能测试	第54页
6.3.3 加入缓存管理线程管理历史记录缓存	第54页
6.4 论文实验过程中遇到的疑难问题和解决方案	第54-55页
6.5 本章小结	第55-57页
第7章总结和展望	第57-59页
参考文献	第59-63页
致谢	第63-65页
在校期间发表的论文	第65页