在线社区中的用户行为分析及热度预测
摘要 | 第4-5页 |
Abstract | 第5页 |
第1章 绪论 | 第12-19页 |
1.1 课题背景 | 第12-13页 |
1.2 课题研究意义和目标 | 第13页 |
1.3 国内外研究现状 | 第13-15页 |
1.3.1 在线社区中网络特性的研究现状 | 第13-14页 |
1.3.2 在线社区中用户行为分析的研究现状 | 第14-15页 |
1.3.3 在线社区中热度预测问题的研究现状 | 第15页 |
1.4 研究内容和难点 | 第15-17页 |
1.5 本文目录结构 | 第17-18页 |
1.6 本章小结 | 第18-19页 |
第2章 相关理论及技术概述 | 第19-32页 |
2.1 社交网络基础 | 第19-22页 |
2.1.1 社交网络的基本概念 | 第19-20页 |
2.1.2 度和度分布 | 第20页 |
2.1.3 聚集系数 | 第20-21页 |
2.1.4 平均路径长度 | 第21-22页 |
2.1.5 自我中心网 | 第22页 |
2.2 社交网络的经典理论 | 第22-25页 |
2.2.1 幂律分布 | 第22-23页 |
2.2.2 无标度网络 | 第23-24页 |
2.2.3 六度分割理论 | 第24-25页 |
2.3 爬虫技术概述 | 第25-29页 |
2.3.1 爬虫基本原理 | 第25-26页 |
2.3.2 爬虫框架Scrapy | 第26-28页 |
2.3.3 爬虫进阶技术 | 第28-29页 |
2.4 基于社交网络的相关研究 | 第29-31页 |
2.4.1 在线社区中的用户行为分析 | 第29-30页 |
2.4.2 在线社区中的热度预测 | 第30-31页 |
2.5 本章小结 | 第31-32页 |
第3章 贴吧数据获取及预处理 | 第32-44页 |
3.1 数据获取 | 第32-41页 |
3.1.1 基于Scrapy的网络爬虫的设计 | 第32-37页 |
3.1.2 基于Scrapy的网络爬虫的实现 | 第37-41页 |
3.2 数据预处理及存储 | 第41页 |
3.3 数据的描述统计分析及可视化 | 第41-43页 |
3.4 本章小结 | 第43-44页 |
第4章 贴吧中回复网络及用户行为研究 | 第44-57页 |
4.1 贴吧中的用户回复网络 | 第44-49页 |
4.1.1 用户回复网络的建立 | 第44页 |
4.1.2 用户回复网络的初步统计及可视化 | 第44-46页 |
4.1.3 用户回复网络的小世界特性研究 | 第46-47页 |
4.1.4 用户回复网络的无标度特性研究 | 第47-49页 |
4.2 贴吧用户的行为分析 | 第49-52页 |
4.2.1 用户活动时间分析 | 第49-50页 |
4.2.2 用户发贴数分析 | 第50-51页 |
4.2.3 用户获回贴数分析 | 第51页 |
4.2.4 用户回复速度分析 | 第51-52页 |
4.3 贴吧用户分类研究 | 第52-56页 |
4.3.1 贴吧用户的行为指标 | 第52-53页 |
4.3.2 贴吧用户聚类分析 | 第53-56页 |
4.4 本章小结 | 第56-57页 |
第5章 贴子热度预测建模与分析 | 第57-70页 |
5.1 实验数据集分析与构造 | 第57-60页 |
5.1.1 数据集预处理 | 第57-58页 |
5.1.2 回复网络的重新构建 | 第58页 |
5.1.3 贴子热度的标注 | 第58-59页 |
5.1.4 实验数据集展示 | 第59页 |
5.1.5 过采样与欠采样 | 第59-60页 |
5.2 特征提取 | 第60-63页 |
5.2.1 时间特征 | 第60页 |
5.2.2 贴子早期参与者的特征 | 第60-61页 |
5.2.3 与用户回复网络相关的特征 | 第61-62页 |
5.2.4 贴子本身早期流露出的特征 | 第62-63页 |
5.3 实验结果与分析 | 第63-69页 |
5.3.1 评估指标 | 第64-65页 |
5.3.2 时间阀值T对分类结果的影响 | 第65-67页 |
5.3.3 分类模型对分类结果的影响 | 第67-68页 |
5.3.4 特征组合对分类结果的影响 | 第68-69页 |
5.4 本章小结 | 第69-70页 |
第6章 总结与展望 | 第70-72页 |
6.1 本文工作总结 | 第70-71页 |
6.2 未来工作展望 | 第71-72页 |
参考文献 | 第72-76页 |
攻读硕士学位期间主要的研究成果 | 第76-77页 |
致谢 | 第77页 |