基于R语言的网络新闻的流行度预测研究
| 摘要 | 第5-6页 |
| ABSTRACT | 第6页 |
| 1 绪论 | 第9-14页 |
| 1.1 研究背景与意义 | 第9-10页 |
| 1.2 网络新闻国内研究现状 | 第10-11页 |
| 1.3 网络新闻国外研究现状 | 第11页 |
| 1.4 研究方法 | 第11-14页 |
| 1.4.1 取材 | 第11-13页 |
| 1.4.2 使用工具 | 第13-14页 |
| 2 理论基础 | 第14-29页 |
| 2.1 特征选择 | 第14-19页 |
| 2.2 几种高级算法介绍 | 第19-25页 |
| 2.2.1 AdaBoost算法 | 第19-20页 |
| 2.2.2 随机森林算法 | 第20-23页 |
| 2.2.3 支持向量机算法 | 第23-25页 |
| 2.3 模型评估与选择 | 第25-29页 |
| 3 实例分析 | 第29-50页 |
| 3.1 数据预处理 | 第29-33页 |
| 3.1.1 数据集加载 | 第29-30页 |
| 3.1.2 数据清理 | 第30-32页 |
| 3.1.3 数据变换 | 第32页 |
| 3.1.4 冗余分析 | 第32-33页 |
| 3.2 特征选择 | 第33-34页 |
| 3.3 建立模型 | 第34-43页 |
| 3.3.1 数据探究分析 | 第34-36页 |
| 3.3.2 自适应增强算法分析 | 第36-38页 |
| 3.3.3 随机森林算法分析 | 第38-42页 |
| 3.3.4 支持向量机算法分析 | 第42-43页 |
| 3.4 模型评估 | 第43-50页 |
| 3.4.1 不同模型之间的混淆矩阵对比情况 | 第43-45页 |
| 3.4.2 不同模型之间的风险图分析 | 第45-48页 |
| 3.4.3 不同模型之间的ROC图及相关图表 | 第48-50页 |
| 4 总结与展望 | 第50-52页 |
| 4.1 总结 | 第50页 |
| 4.2 展望 | 第50-52页 |
| 参考文献 | 第52-55页 |
| 致谢 | 第55页 |