中英文政策垂直搜索引擎研究与实现

中文摘要	第4-5页
英文摘要	第5-6页
1 绪论	第10-15页
1.1 研究背景及意义	第10页
1.2 国内外研究现状	第10-13页
1.2.1 政策数据库研究现状	第10-11页
1.2.2 网络定向爬虫研究现状	第11页
1.2.3 全文检索技术研究现状	第11-12页
1.2.4 Web文本挖掘研究现状	第12页
1.2.5 在线翻译研究现状	第12-13页
1.3 研究目的及主要内容	第13-15页
2 搜索引擎实现的主要技术	第15-21页
2.1 定向爬虫技术介绍	第15-16页
2.1.1 定向爬虫WebMagic	第15-16页
2.1.2 基于WebMagic的分布式爬虫	第16页
2.1.3 应对反爬虫策略	第16页
2.2 全文检索技术(Lucene)介绍	第16-17页
2.2.1 全文索引技术	第16-17页
2.2.2 全文检索技术	第17页
2.3 文本挖掘主要算法介绍	第17-19页
2.3.1 关键词提取算法	第17-19页
2.3.2 文本分类算法	第19页
2.4 在线翻译技术介绍	第19-20页
2.5 小结	第20-21页
3 基于词共现的关键词提取算法研究与改进	第21-28页
3.1 基于词共现的关键词提取算法改进原理介绍	第21-22页
3.2 基于词共现的关键词提取算法的实现	第22-24页
3.3 基于词共现的关键词提取算法实验结果分析	第24-27页
3.3.1 实验评估标准	第24页
3.3.2 实验数据准备	第24-25页
3.3.3 实验结果分析	第25-27页
3.4 小结	第27-28页
4 基于特征词加权的政策文本分类算法研究与实现	第28-34页
4.1 网页文本内容提取	第28页
4.2 关键技术的选取	第28页
4.3 基于特征词加权的相似度阈值计算方法	第28-31页
4.4 政策文本分类算法研究与实现	第31-32页
4.5 基于特征词加权的政策文本分类算法实现结果分析	第32-33页
4.5.1 实验结果的评估标准	第32页
4.5.2 实验数据准备	第32页
4.5.3 实验结果分析	第32-33页
4.6 小结	第33-34页
5 中英文政策垂直搜索引擎设计与实现	第34-42页
5.1 系统总体结构设计	第34-35页
5.2 系统各模块设计与实现	第35-41页
5.2.1 分布式爬虫模块	第35-36页
5.2.2 应对反爬虫策略模块	第36-37页
5.2.3 舆情及英文政策爬虫模块	第37-39页
5.2.4 舆情及英文全文检索模块	第39-40页
5.2.5 “人有我无”检索模块	第40页
5.2.6 英文网页在线翻译模块	第40-41页
5.3 小结	第41-42页
6 系统测试	第42-50页
6.1 实验环境	第42页
6.2 模块测试	第42-46页
6.2.1 分布式爬虫效率测试	第42-43页
6.2.2 应对反爬虫策略测试	第43页
6.2.3 舆情及英文政策爬虫测试	第43-44页
6.2.4 舆情及英文全文检索测试	第44-45页
6.2.5 英文网页在线翻译测试	第45-46页
6.3 系统总体测试	第46-49页
6.4 小结	第49-50页
7 总结与展望	第50-52页
7.1 总结	第50页
7.2 不足及展望	第50-52页
参考文献	第52-55页
致谢	第55-56页
攻读学位期间取得的科研成果清单	第56页