摘要 | 第4-5页 |
Abstract | 第5页 |
1 绪论 | 第10-14页 |
1.1 研究背景及意义 | 第10页 |
1.2 国内外研究现状 | 第10-12页 |
1.3 本文研究内容 | 第12-13页 |
1.4 本文组织结构 | 第13页 |
1.5 本章小节 | 第13-14页 |
2 相关理论与技术 | 第14-31页 |
2.1 爬取评论信息 | 第14-19页 |
2.1.1 网络爬虫概念及简介 | 第15-16页 |
2.1.2 采用的爬虫语言 | 第16-19页 |
2.1.3 评论文本的保存 | 第19页 |
2.2 评论文本预处理 | 第19-21页 |
2.2.1 简繁体转换 | 第20页 |
2.2.2 同义词替换 | 第20页 |
2.2.3 数据清理 | 第20页 |
2.2.4 分词 | 第20-21页 |
2.2.5 删除停用词 | 第21页 |
2.3 评论文本特征表示 | 第21-24页 |
2.3.1 文档表示模型 | 第21-22页 |
2.3.2 特征项权重计算 | 第22页 |
2.3.3 特征降维 | 第22-24页 |
2.4 评论文本聚类 | 第24-27页 |
2.4.1 常用聚类算法 | 第25页 |
2.4.2 K均值聚类及面临的问题 | 第25-27页 |
2.5 概率主体模型 | 第27-28页 |
2.5.1 常用主题模型算法 | 第27-28页 |
2.5.2 LDA模型及面临的问题 | 第28页 |
2.6 主题挖掘 | 第28-30页 |
2.6.1 主题挖掘定义 | 第28-29页 |
2.6.2 主题挖掘的分类 | 第29页 |
2.6.3 基于聚类和LDA的主题挖掘算法对比 | 第29-30页 |
2.7 本章小结 | 第30-31页 |
3 基于Python的动态评论网页爬虫 | 第31-40页 |
3.1 评论网页爬虫的相关问题 | 第31-32页 |
3.1.1 动态评论网页特点 | 第31页 |
3.1.2 python语言的爬取特性 | 第31页 |
3.1.3 聚焦爬虫算法 | 第31-32页 |
3.2 基于Python的动态网页爬虫算法 | 第32页 |
3.3 动态网页评论爬虫算法操作流程与爬虫程序 | 第32-38页 |
3.3.1 静态URL构造动态URL | 第32-34页 |
3.3.2 获取该Ajax请求返回的Json数据 | 第34页 |
3.3.3 解析Json数据并保存结果 | 第34-36页 |
3.3.4 停止条件 | 第36页 |
3.3.5 程序及结果 | 第36-37页 |
3.3.6 特殊情况 | 第37-38页 |
3.4 对比分析 | 第38-39页 |
3.5 本章小结 | 第39-40页 |
4 基于改进LDA的新闻评论主题挖掘 | 第40-59页 |
4.1 新闻评论 | 第40-43页 |
4.1.1 新闻评论相关概念 | 第40-41页 |
4.1.2 针对LDA新闻评论数据特点 | 第41-43页 |
4.1.3 基于LDA的新闻评论主题挖掘 | 第43页 |
4.2 基于LDA的主题挖掘改进算法 | 第43-45页 |
4.2.1 原LDA主题挖掘算法在新闻评论中的不足 | 第43-44页 |
4.2.2 基于LDA的主题挖掘改进算法 | 第44-45页 |
4.3 基于LDA的新闻评论主题挖掘改进算法的过程及程序 | 第45-52页 |
4.3.1 系列新闻评论文本的爬取 | 第47页 |
4.3.2 语料标记 | 第47-48页 |
4.3.3 插入的过程(合并同段的评论并对它简化) | 第48页 |
4.3.4 文档建模处理(l_1,l_2,...l_m ) | 第48-51页 |
4.3.5 评论主题挖掘分析 | 第51-52页 |
4.3.6 可视化分析 | 第52页 |
4.4 实验结果 | 第52-57页 |
4.4.1 对新闻评论用原lda算法聚类 | 第52-56页 |
4.4.2 对新闻评论用lda改进模型算法 | 第56-57页 |
4.5 改进LDA与原LDA主题演化算法的比较 | 第57-58页 |
4.6 本章小结 | 第58-59页 |
5 基于改进K均值聚类的在线新闻评论主题挖掘 | 第59-86页 |
5.1 新闻评论 | 第59-61页 |
5.1.1 新闻评论针对聚类的新闻评论数据特点 | 第59-60页 |
5.1.2 基于K均值聚类的主题挖掘算法 | 第60-61页 |
5.2 基于改进K均值聚类的主题挖掘算法 | 第61-65页 |
5.2.1 K均值聚类在新闻评论数据上的不足 | 第61页 |
5.2.2 K均值聚类改进 | 第61-65页 |
5.2.3 基于改进K均值聚类主题挖掘算法 | 第65页 |
5.3 基于改进K均值聚类的新闻评论主题挖掘的过程及程序 | 第65-74页 |
5.3.1 系列新闻评论文本的爬取 | 第68-69页 |
5.3.2 语料标记 | 第69页 |
5.3.3 文档建模 | 第69-73页 |
5.3.4 评论主题挖掘分析 | 第73-74页 |
5.3.5 可视化分析 | 第74页 |
5.4 实验结果 | 第74-83页 |
5.4.1 爬取新闻评论文本并转化为结构化数据 | 第74-76页 |
5.4.2 在余弦距离下用原K-means算法聚类 | 第76页 |
5.4.3 在欧式距离下用原K-means算法聚类 | 第76-77页 |
5.4.4 在欧式距离下用改进的K-means聚类 | 第77-81页 |
5.4.5 基于改进的K-means聚类的主题挖掘 | 第81-83页 |
5.5 改进的K-means聚类算法与原K-means聚类算法结果比较 | 第83-84页 |
5.5.1 改进算法与在欧式距离下用原K-means算法比较聚类效果 | 第83页 |
5.5.2 在欧氏距离下的改进算法与在余弦距离下用原算法聚类 | 第83-84页 |
5.6 本章小结 | 第84-86页 |
6 结论 | 第86-87页 |
参考文献 | 第87-90页 |
附录 | 第90-120页 |
致谢 | 第120页 |