基于网络数据的电影市场分析和预测
摘要 | 第3-4页 |
abstract | 第4页 |
第一章 绪论 | 第7-9页 |
1.1 研究背景与意义 | 第7页 |
1.2 研究目标与内容 | 第7-8页 |
1.3 论文结构 | 第8-9页 |
第二章 相关背景技术介绍 | 第9-21页 |
2.1 国内外研究现状 | 第9-11页 |
2.2 爬虫技术的定义与工作原理 | 第11-15页 |
2.2.1 爬虫的定义和产生背景 | 第11-12页 |
2.2.2 爬虫的分类 | 第12-13页 |
2.2.3 爬虫爬取目标及策略 | 第13-14页 |
2.2.4 爬虫面临的问题 | 第14-15页 |
2.3 数据分析方法的介绍 | 第15-19页 |
2.3.1 数据分析的定义和意义 | 第15页 |
2.3.2 数据分析的方法论和模型 | 第15-16页 |
2.3.3 数据可视化 | 第16页 |
2.3.4 数据分析前沿拓展 | 第16-18页 |
2.3.5 数据分析面临问题 | 第18-19页 |
2.4 本章小结 | 第19-21页 |
第三章 爬虫框架及数据结构的设计 | 第21-35页 |
3.1 数据库的设计与实现 | 第21-23页 |
3.1.1 E-R图的设计 | 第21-22页 |
3.1.2 数据库表结构的设计 | 第22-23页 |
3.2 自定义爬虫框架 | 第23-31页 |
3.2.1 爬虫核心数据结构 | 第24-26页 |
3.2.2 网络请求模块设计 | 第26-27页 |
3.2.3 爬虫模块设计 | 第27-29页 |
3.2.4 数据库存储类的设计 | 第29页 |
3.2.5 爬虫框架的使用 | 第29-31页 |
3.3 基于自定义爬虫框架的电影数据抓取程序实现 | 第31-34页 |
3.3.1 电影数据抓取策略 | 第31页 |
3.3.2 基本信息数据抓取 | 第31-33页 |
3.3.3 电影票房数据补充 | 第33-34页 |
3.4 本章小结 | 第34-35页 |
第四章 基于网络数据的统计分析 | 第35-49页 |
4.1 对于电影数据的清洗 | 第35-36页 |
4.2 对电影数据的分析 | 第36-47页 |
4.3 本章小结 | 第47-49页 |
第五章 基于随机森林的票房预测 | 第49-77页 |
5.1 数据准备 | 第49页 |
5.2 特征选取 | 第49-63页 |
5.2.1 特征筛选方法 | 第49-50页 |
5.2.2 特征选取 | 第50-63页 |
5.3 模型建立 | 第63-75页 |
5.3.1 多元回归模型 | 第64-69页 |
5.3.2 判别分析模型 | 第69-70页 |
5.3.3 决策树模型 | 第70-71页 |
5.3.4 SVM模型 | 第71-73页 |
5.3.5 随机森林模型 | 第73-74页 |
5.3.6 模型评价 | 第74-75页 |
5.4 本章小结 | 第75-77页 |
第六章 结论与展望 | 第77-79页 |
6.1 主要结论 | 第77页 |
6.2 工作展望 | 第77-79页 |
参考文献 | 第79-81页 |
致谢 | 第81页 |