网络舆情评论文本信息的R挖掘研究--以“徐玉玉”电信诈骗事件为例
摘要 | 第3-4页 |
Abstract | 第4-5页 |
第1章 绪论 | 第8-15页 |
1.1 研究背景和意义 | 第8-9页 |
1.2 文本数据挖掘的研究现状 | 第9-12页 |
1.2.1 网络舆情信息分析系统 | 第9-10页 |
1.2.2 中文分词 | 第10-11页 |
1.2.3 机器学习分类方法 | 第11-12页 |
1.3 R语言运用于文挖掘的分析 | 第12-14页 |
1.4 本文的研究内容及组织结构 | 第14-15页 |
第2章 文本数据收集与中文分词 | 第15-24页 |
2.1 数据收集与预处理 | 第15-16页 |
2.1.1 数据收集 | 第15-16页 |
2.1.2 解析用户名、微博内容信息及时间 | 第16页 |
2.2 中文分词与词频统计 | 第16-21页 |
2.2.1 中文分词 | 第16-17页 |
2.2.2 创建语料库 | 第17-19页 |
2.2.3 创建文档—词条矩阵 | 第19-21页 |
2.3 统计词频与数据可视化 | 第21-24页 |
第3章 热度分析与回归分析 | 第24-39页 |
3.1 热度分析 | 第24-25页 |
3.2 回归分析 | 第25-39页 |
3.2.1 获取点赞数量 | 第25-26页 |
3.2.2 多元线性回归 | 第26-31页 |
3.2.3 决策树回归 | 第31-32页 |
3.2.4 随机森林 | 第32-39页 |
第4章 聚类分析与文档分类分析 | 第39-54页 |
4.1 聚类分析与主题评判 | 第39-44页 |
4.1.1 距离定义 | 第39-40页 |
4.1.2 聚类分析 | 第40-42页 |
4.1.3 主题判别 | 第42-44页 |
4.2 有监督的学习技术 | 第44-48页 |
4.2.1 朴素贝叶斯分类器 | 第44-45页 |
4.2.2 支持向量机SVM | 第45-46页 |
4.2.3 随机森林 | 第46页 |
4.2.4 最大熵 | 第46-48页 |
4.3 模型比较 | 第48-50页 |
4.4 文档分类 | 第50-51页 |
4.5 结果分析与相关建议 | 第51-54页 |
总结与展望 | 第54-55页 |
参考文献 | 第55-57页 |
攻读学位期间发表的学术论文和研究成果 | 第57-58页 |
致谢 | 第58页 |