搜索引擎理论与技术研究

摘要	第4-5页
Abstract	第5页
第一章绪论	第8-11页
1.1 选题背景及意义	第8页
1.2 国内外研究现状	第8-10页
1.3 本文的主要工作安排	第10-11页
第二章搜索引擎概述	第11-14页
2.1 搜索引擎的工作原理	第11-12页
2.1.1 搜索引擎的工作流程	第11页
2.1.2 搜索引擎的体系结构	第11-12页
2.2 搜索引擎发展趋势	第12页
2.3 搜索引擎的分类	第12-13页
2.4 本章小结	第13-14页
第三章网络爬虫原理及爬虫设计	第14-28页
3.1 爬虫的基本原理与架构	第14-16页
3.1.1 网络爬虫的原理	第14页
3.1.2 网络爬虫架构	第14-16页
3.2 网络爬虫的策略分析	第16-18页
3.2.1 宽度优先策略	第16-17页
3.2.2 完全PageRank策略	第17页
3.2.3 非完全PageRank策略	第17-18页
3.2.4 分布式爬虫	第18页
3.3 网络爬虫的设计	第18-23页
3.3.1 Heritrix结构分析	第18-20页
3.3.2 设计自己的爬虫程序	第20-21页
3.3.3 对爬虫算法的优化	第21-23页
3.4 从HTML文件中提取文本	第23-27页
3.4.1 识别网页的编码	第24-25页
3.4.2 HTML内容提取	第25-27页
3.5 本章小结	第27-28页
第四章搜索引擎关键技术研究与实现	第28-54页
4.1 中文分词技术研究	第28-34页
4.1.1 分词技术的划分方法	第28-29页
4.1.2 中文分词的方法	第29-30页
4.1.3 Lucene中的Analyzer研究	第30-32页
4.1.4 中文分词体系结构与切分过程	第32-33页
4.1.5 使用IKAnalyzer进行中文分词	第33-34页
4.2 网页去重算法研究	第34-38页
4.2.1 网页去重的意义	第34页
4.2.2 网页去重的基本流程	第34-35页
4.2.3 TF-IDF算法研究	第35-36页
4.2.4 网页相似度算法——余弦相似性	第36-38页
4.3 Lucene与Solr关键技术研究	第38-44页
4.3.1 Lucene的架构	第38-40页
4.3.2 Lucene与Solr间的关系	第40页
4.3.3 创建索引	第40-42页
4.3.4 查找索引库	第42-44页
4.4 Solr配置与应用	第44-49页
4.4.1 Tomcat 8.0 下配置Solr	第44-45页
4.4.2 Solr中的文件配置	第45-47页
4.4.3 向Solr添加、删除数据	第47-49页
4.5 网页排序算法研究与实现	第49-53页
4.6 本章小结	第53-54页
第五章搜索引擎的设计与实现	第54-67页
5.1 新闻网页的信息抓取	第54-58页
5.1.1 建立爬虫工程	第54-55页
5.1.2 爬虫参数设定	第55-58页
5.2 网页内容提取	第58-61页
5.3 分词系统的设计与实现	第61-63页
5.4 向Solr集成IKAnalyzer分词的设计	第63-64页
5.5 Solr检索模块的设计与实现	第64-66页
5.6 本章小结	第66-67页
第六章总结与展望	第67-69页
参考文献	第69-71页
致谢	第71页