摘要 | 第5-6页 |
ABSTRACT | 第6-7页 |
第一章 绪论 | 第10-18页 |
1.1 课题背景与意义 | 第10-12页 |
1.1.1 电视用户画像的背景与意义 | 第10-11页 |
1.1.2 使用公共微博数据的背景与意义 | 第11-12页 |
1.2 课题研究现状 | 第12-14页 |
1.2.1 微博的研究现状 | 第12-13页 |
1.2.2 电视用户画像的研究现状 | 第13-14页 |
1.3论文的研究内容 | 第14-16页 |
1.4 论文的创新点 | 第16-17页 |
1.5 论文的组织结构 | 第17-18页 |
第二章 相关技术 | 第18-24页 |
2.1 微博数据抓取和清洗技术 | 第18-19页 |
2.1.1 基于selenium的网络爬虫 | 第18页 |
2.1.2 TF-IDF方法 | 第18-19页 |
2.2 构建模型所需的分类算法 | 第19-24页 |
2.2.1 决策树 | 第19-21页 |
2.2.2 梯度提升决策树(Gradient Boosting Decision Tree) | 第21-24页 |
第三章 收视数据与微博数据处理 | 第24-34页 |
3.1 电视用户收视数据清洗 | 第24-26页 |
3.2 微博爬虫实现 | 第26-28页 |
3.2.1 多账号登录 | 第27页 |
3.2.2 关键词搜索 | 第27-28页 |
3.2.3 解析页面 | 第28页 |
3.3 微博数据的清洗 | 第28-34页 |
第四章 电视用户画像研究 | 第34-46页 |
4.1 电视用户画像标签的定义 | 第34-36页 |
4.2 利用微博数据构建训练模型 | 第36-42页 |
4.2.1 多标签分类问题 | 第36页 |
4.2.2 基于微博数据的标签模型的构建 | 第36-39页 |
4.2.2.1 性别标签模型构造 | 第37页 |
4.2.2.2 年龄标签模型构造 | 第37-39页 |
4.2.2.3 兴趣偏好标签模型构造 | 第39页 |
4.2.3 使用xgboost构造模型 | 第39-41页 |
4.2.4 实验证明标签与电视节目的相关性 | 第41-42页 |
4.3 使用微博用户数据模型预测电视用户的用户画像 | 第42-46页 |
第五章 电视用户画像实验 | 第46-56页 |
5.1 实验数据 | 第46-47页 |
5.2 传统的基于EPG和TF-IDF的电视用户画像方法 | 第47-49页 |
5.3 用户画像准确性评估方法 | 第49-52页 |
5.3.1 Fepg评估方法 | 第49-50页 |
5.3.2 Fweibo评估方法 | 第50-51页 |
5.3.3 推荐成功率评估标准 | 第51-52页 |
5.4 实验结果分析 | 第52-56页 |
第六章 总结与展望 | 第56-60页 |
6.1 总结 | 第56-57页 |
6.2 展望 | 第57-60页 |
参考文献 | 第60-62页 |
致谢 | 第62-64页 |
攻读学位期间取得的研究成果 | 第64页 |