面向网络舆情分析的数据采集与管理方法研究

摘要	第5-6页
abstract	第6-7页
第一章绪论	第10-14页
1.1 研究内容的背景及意义	第10-11页
1.2 国内外研究现状	第11-12页
1.3 本文主要工作	第12-13页
1.4 论文目录章节内容安排	第13-14页
第二章相关理论与技术基础	第14-28页
2.1 网络爬虫技术	第14-17页
2.1.1 网络爬虫原理	第14-16页
2.1.2 URL去重技术	第16-17页
2.2 web信息抽取技术	第17-19页
2.2.1 web信息抽取技术分类	第17-19页
2.2.2 web信息抽取结果衡量标准	第19页
2.3 海量数据管理技术	第19-26页
2.3.1 数据管理技术	第19-21页
2.3.2 分布式数据库HBase	第21-24页
2.3.3 信息检索技术	第24-26页
2.4 情感分析技术	第26-27页
2.5 本章小结	第27-28页
第三章网络舆情数据采集与管理方法研究与设计	第28-52页
3.1 网络舆情数据采集内容与数据源选择	第28-29页
3.2 针对多数据源的网络数据采集方法研究与设计	第29-44页
3.2.1 微博数据采集	第29-34页
3.2.2 BBS论坛数据采集	第34-39页
3.2.3 web新闻数据采集	第39-42页
3.2.4 基于规则模板的微博和BBS论坛信息抽取方法设计	第42-44页
3.3 舆情数据管理方法研究与设计	第44-50页
3.3.1 基于HBase构建海量舆情数据的存储中心	第44-47页
3.3.2 针对HBase存储的海量舆情数据检索功能研究	第47-50页
3.4 本章小结	第50-52页
第四章 web新闻正文抽取方法研究	第52-66页
4.1 引言	第52页
4.2 基于行块分布函数的web新闻正文抽取方法研究	第52-57页
4.2.1 基于行块分布函数的通用网页正文抽取算法介绍	第53-56页
4.2.2 基于扩展行块分布函数的web新闻正文抽取方法	第56-57页
4.3 基于统计与网页结构的web新闻正文抽取算法研究	第57-64页
4.3.1 DOM树	第57-58页
4.3.2 基于统计和DOM树结构的web新闻正文抽取方法	第58-64页
4.4 web新闻标题与发布时间的获取	第64页
4.5 两种web新闻正文抽取算法对比	第64-65页
4.6 本章小结	第65-66页
第五章网络舆情分析系统建模与实现	第66-80页
5.1 系统总体架构设计与系统实现	第66-68页
5.2 系统功能模块实现与测试	第68-79页
5.2.1 网络舆情数据采集模块	第68-71页
5.2.2 海量舆情数据管理模块	第71-75页
5.2.3 针对主题微博评论的情感分析舆情应用	第75-79页
5.3 本章小结	第79-80页
第六章全文总结与展望	第80-83页
6.1 全文总结	第80-81页
6.2 后续工作展望	第81-83页
致谢	第83-84页
参考文献	第84-86页
攻读硕士学位期间取得的成果	第86-87页