基于主题的数据API检索平台关键技术的研究与实现

摘要	第4-5页
Abstract	第5页
第1章绪论	第12-16页
1.1 课题背景及意义	第12-13页
1.2 课题目标	第13-14页
1.3 本文贡献和创新点	第14页
1.4 本文组织结构	第14-15页
1.5 本章小结	第15-16页
第2章相关技术调研	第16-27页
2.1 爬虫技术	第16-19页
2.1.1 PySpider爬虫框架	第16-17页
2.1.2 Scrapy爬虫框架	第17-19页
2.2 消息队列	第19-22页
2.2.1 特点介绍	第20-21页
2.2.2 消息队列种类	第21-22页
2.3 全文检索	第22-24页
2.4 主题模型	第24-26页
2.5 本章小结	第26-27页
第3章平台总体架构设计概述	第27-36页
3.1 总体需求	第27-29页
3.2 平台的总体架构	第29-32页
3.2.1 用户请求与操作	第30页
3.2.2 数据接口中间层	第30-31页
3.2.3 数据处理与执行层	第31-32页
3.3 系统总体流程	第32-35页
3.3.1 数据采集子系统	第33-34页
3.3.2 基于主题的数据分类和检索子系统	第34-35页
3.4 本章小结	第35-36页
第4章数据采集子系统的设计与实现	第36-49页
4.1 概述	第36-37页
4.2 总体设计	第37-39页
4.3 基于模板的网页信息提取	第39-46页
4.3.1 网页文档的预处理	第40-43页
4.3.2 基于结构相似度的网页文档聚类	第43-45页
4.3.3 模板生成和基于模板的内容提取	第45-46页
4.4 网页抓取的设计	第46-47页
4.5 分布式的数据存储设计	第47-48页
4.6 本章小结	第48-49页
第5章基于主题的数据分类和检索	第49-62页
5.1 概述	第49页
5.2 总体设计	第49-51页
5.3 基于主题模型的API主题的选取设计	第51-57页
5.3.1 基于LDA的主题模型	第51-57页
5.4 基于API主题的检索	第57-61页
5.4.1 API主题索引的创建	第57-59页
5.4.2 基于相似度的API主题的检索	第59-61页
5.5 本章小结	第61-62页
第6章实验结果与分析	第62-76页
6.1 实验环境	第62页
6.1.1 运行环境	第62页
6.2 实验结果及分析	第62-75页
6.2.1 网页数据抓取效果及分析	第62-64页
6.2.2 抽取模板和网页抽取效果分析	第64-67页
6.2.3 LDA主题模型建模及分析	第67-71页
6.2.4 基于API主题的检索效果分析	第71-75页
6.3 本章小结	第75-76页
第7章总结和展望	第76-78页
7.1 本文总结	第76-77页
7.2 下一步工作和未来展望	第77-78页
参考文献	第78-81页
致谢	第81页