基于模板的舆情数据抽取技术的研究与实现
摘要 | 第4-5页 |
abstract | 第5-6页 |
第1章 绪论 | 第12-16页 |
1.1 研究背景与现状 | 第12-13页 |
1.2 主要研究内容及组织结构 | 第13-16页 |
1.2.1 主要研究内容 | 第13页 |
1.2.2 论文组织结构 | 第13-16页 |
第2章 系统需求分析 | 第16-26页 |
2.1 功能性需求 | 第16-21页 |
2.1.1 半自动化模板生成 | 第17-18页 |
2.1.2 服务端模板接收 | 第18-19页 |
2.1.3 HTML网页爬取与数据抽取 | 第19-20页 |
2.1.4 自动化数据抽取与临时模板生成 | 第20-21页 |
2.2 数据字典 | 第21-23页 |
2.3 非功能性需求 | 第23-24页 |
2.4 本章小结 | 第24-26页 |
第3章 系统设计 | 第26-44页 |
3.1 系统设计目标 | 第26-28页 |
3.2 系统模块设计 | 第28-36页 |
3.2.1 模板接收模块 | 第28-32页 |
3.2.2 UUID生成模块 | 第32-33页 |
3.2.3 爬取和抽取模块 | 第33-36页 |
3.3 系统数据库设计 | 第36-42页 |
3.3.1 数据关系设计 | 第36-37页 |
3.3.2 数据表设计 | 第37-42页 |
3.4 系统部署 | 第42-43页 |
3.5 本章小结 | 第43-44页 |
第4章 基于模板的舆情数据抽取 | 第44-60页 |
4.1 问题背景 | 第44页 |
4.2 半自动化的模板生成 | 第44-49页 |
4.2.1 半自动化的模板生成流程 | 第44-45页 |
4.2.2 舆情数据模板项XPATH生成算法 | 第45-47页 |
4.2.3 舆情数据模板生成算法 | 第47-49页 |
4.3 自动化舆情数据抽取与模板生成 | 第49-57页 |
4.3.1 保留式噪音剔除与舆情附属信息定位 | 第50-52页 |
4.3.2 自动化舆情数据抽取 | 第52-55页 |
4.3.3 自动化舆情数据抽取后的模板自动生成 | 第55-57页 |
4.4 分流抽取技术 | 第57-58页 |
4.4.1 在线分流抽取技术 | 第57-58页 |
4.4.2 离线抽取技术 | 第58页 |
4.5 本章小结 | 第58-60页 |
第5章 系统实现与测试 | 第60-66页 |
5.1 系统环境 | 第60页 |
5.2 主要模块实现介绍 | 第60-62页 |
5.2.1 半自动化模板生成插件的实现 | 第60-61页 |
5.2.2 自动化数据抽取与模板自动生成实现 | 第61页 |
5.2.3 其他模块 | 第61-62页 |
5.3 系统测试 | 第62-65页 |
5.3.1 主要功能测试 | 第63-64页 |
5.3.2 系统性能测试 | 第64-65页 |
5.4 本章小结 | 第65-66页 |
第6章 总结与展望 | 第66-68页 |
6.1 总结 | 第66页 |
6.2 展望 | 第66-68页 |
致谢 | 第68-70页 |
参考文献 | 第70-72页 |
攻读学位期间发表的学术论文及参加科研情况 | 第72-73页 |