专业信息定向采集与多维搜索系统

摘要	第4-5页
Abstract	第5页
第1章绪论	第12-16页
1.1 课题背景	第12-13页
1.2 本文主要工作	第13-14页
1.3 本文组织结构	第14-15页
1.4 本章小结	第15-16页
第2章相关工作综述	第16-27页
2.1 互联网数据采集	第16-20页
2.1.1 Scrapy框架	第17-18页
2.1.2 URL过滤	第18-19页
2.1.3 正文抽取	第19-20页
2.2 数据存储与索引	第20-22页
2.2.1 MongoDB	第20-21页
2.2.2 ElasticSearch	第21-22页
2.3 分布式服务平台	第22-23页
2.3.1 消息中间件Kafka	第22页
2.3.2 分布式协调ZooKeeper	第22-23页
2.3.3 流式计算Storm	第23页
2.4 全文检索与多维导航	第23-26页
2.5 本章小节	第26-27页
第3章系统总体设计	第27-34页
3.1 系统设计目标	第27页
3.2 系统需求分析	第27-30页
3.2.1 数据采集需求分析	第27-29页
3.2.2 多维搜索需求分析	第29-30页
3.3 系统总体设计与架构	第30-33页
3.3.1 数据采集子系统架构	第31-32页
3.3.2 多维搜索子系统架构	第32-33页
3.4 本章小结	第33-34页
第4章基于任务调度优化的分布式定向爬虫	第34-48页
4.1 Chrome Plugin	第34-36页
4.2 Scheduler调度器	第36-40页
4.2.1 任务调度策略	第36-37页
4.2.2 全局限流策略	第37-39页
4.2.3 抓取策略	第39-40页
4.3 Crawler采集器	第40-44页
4.3.1 URLs预取策略	第40-42页
4.3.2 自定义HTTP请求	第42-44页
4.4 Parser解析器	第44-47页
4.4.1 任务配置协议	第44-46页
4.4.2 维护任务配置策略	第46-47页
4.5 本章小结	第47-48页
第5章可视化多维搜索服务系统	第48-61页
5.1 数据清洗	第48-52页
5.1.1 文档去噪	第48-51页
5.1.2 文档去重	第51-52页
5.2 领域信息抽取	第52-54页
5.2.1 中文分词	第52-53页
5.2.2 领域实体抽取	第53-54页
5.3 多维搜索服务	第54-60页
5.3.1 专业领域概念体系	第54-56页
5.3.2 跨主题跨源搜索	第56-57页
5.3.3 维度聚合查询	第57-58页
5.3.4 可视化搜索	第58-60页
5.4 本章小结	第60-61页
第6章系统实现与应用	第61-70页
6.1 分布式爬虫服务	第61-62页
6.2 多维搜索服务	第62-63页
6.3 系统扩展性与性能评测	第63-66页
6.3.1 系统扩展性分析	第63-64页
6.3.2 系统相关测试	第64-66页
6.4 系统应用	第66-69页
6.4.1 分布式爬虫服务应用	第66-67页
6.4.2 多维搜索服务系统应用	第67-69页
6.5 本章小结	第69-70页
第7章总结与展望	第70-72页
7.1 全文总结	第70-71页
7.2 未来展望	第71-72页
参考文献	第72-75页
攻读硕士学位期间主要的研究成果	第75-76页
致谢	第76-77页