基于Node爬虫的微博舆情采集系统分析与设计
摘要 | 第5-6页 |
Abstract | 第6页 |
1 绪论 | 第7-11页 |
1.1 研究背景及意义 | 第7-8页 |
1.2 研究现状 | 第8-10页 |
1.2.1 网络舆情研究现状 | 第8-9页 |
1.2.2 舆情监测、分析系统研究现状 | 第9页 |
1.2.3 微博舆情采集研究现状 | 第9-10页 |
1.3 论文主要研究内容 | 第10-11页 |
2 相关理论基础 | 第11-18页 |
2.1 网络爬虫概述 | 第11-12页 |
2.1.1 通用爬虫 | 第11页 |
2.1.2 主题爬虫 | 第11-12页 |
2.1.3 增量式爬虫 | 第12页 |
2.1.4 深层网页爬虫 | 第12页 |
2.2 网页信息处理 | 第12-13页 |
2.2.1 HTML页面结构分析 | 第12-13页 |
2.2.2 页面信息提取 | 第13页 |
2.3 网页数据分析 | 第13-18页 |
2.3.1 中文分词技术 | 第13-14页 |
2.3.2 特征提取算法TF-IDF | 第14页 |
2.3.3 文本聚类算法BIRCH | 第14-16页 |
2.3.4 文本聚类算法改进 | 第16-18页 |
3 微博舆情采集系统设计与实现 | 第18-37页 |
3.1 分析及设计 | 第18页 |
3.1.1 需求分析 | 第18页 |
3.1.2 设计目标 | 第18页 |
3.2 功能模块设计 | 第18-19页 |
3.3 各模块设计及实现 | 第19-35页 |
3.3.1 前端模块设计及实现 | 第19-21页 |
3.3.2 信息采集模块 | 第21-27页 |
3.3.2.1 信息采集模块设计 | 第21-22页 |
3.3.2.2 信息采集模块具体实现 | 第22-27页 |
3.3.3 信息抽取模块 | 第27-30页 |
3.3.4 信息存储模块 | 第30-31页 |
3.3.5 文本分析模块设计与实现 | 第31-35页 |
3.3.5.1 文本分词实现 | 第32页 |
3.3.5.2 提取特征词实现 | 第32-33页 |
3.3.5.3 文本表示 | 第33-34页 |
3.3.5.4 文本聚类算法实现 | 第34-35页 |
3.4 章节小结 | 第35-37页 |
4 实验测试 | 第37-40页 |
4.1 系统结果分析 | 第37-40页 |
4.1.1 微博文章热门话题 | 第37-38页 |
4.1.2 代表意见 | 第38-40页 |
5 全文总结与展望 | 第40-41页 |
5.1 全文总结 | 第40页 |
5.2 不足点与后期改进 | 第40-41页 |
参考文献 | 第41-43页 |
致谢 | 第43页 |