首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于聚类与LDA的新闻评论主题挖掘研究

摘要第4-5页
Abstract第5页
1 绪论第10-14页
    1.1 研究背景及意义第10页
    1.2 国内外研究现状第10-12页
    1.3 本文研究内容第12-13页
    1.4 本文组织结构第13页
    1.5 本章小节第13-14页
2 相关理论与技术第14-31页
    2.1 爬取评论信息第14-19页
        2.1.1 网络爬虫概念及简介第15-16页
        2.1.2 采用的爬虫语言第16-19页
        2.1.3 评论文本的保存第19页
    2.2 评论文本预处理第19-21页
        2.2.1 简繁体转换第20页
        2.2.2 同义词替换第20页
        2.2.3 数据清理第20页
        2.2.4 分词第20-21页
        2.2.5 删除停用词第21页
    2.3 评论文本特征表示第21-24页
        2.3.1 文档表示模型第21-22页
        2.3.2 特征项权重计算第22页
        2.3.3 特征降维第22-24页
    2.4 评论文本聚类第24-27页
        2.4.1 常用聚类算法第25页
        2.4.2 K均值聚类及面临的问题第25-27页
    2.5 概率主体模型第27-28页
        2.5.1 常用主题模型算法第27-28页
        2.5.2 LDA模型及面临的问题第28页
    2.6 主题挖掘第28-30页
        2.6.1 主题挖掘定义第28-29页
        2.6.2 主题挖掘的分类第29页
        2.6.3 基于聚类和LDA的主题挖掘算法对比第29-30页
    2.7 本章小结第30-31页
3 基于Python的动态评论网页爬虫第31-40页
    3.1 评论网页爬虫的相关问题第31-32页
        3.1.1 动态评论网页特点第31页
        3.1.2 python语言的爬取特性第31页
        3.1.3 聚焦爬虫算法第31-32页
    3.2 基于Python的动态网页爬虫算法第32页
    3.3 动态网页评论爬虫算法操作流程与爬虫程序第32-38页
        3.3.1 静态URL构造动态URL第32-34页
        3.3.2 获取该Ajax请求返回的Json数据第34页
        3.3.3 解析Json数据并保存结果第34-36页
        3.3.4 停止条件第36页
        3.3.5 程序及结果第36-37页
        3.3.6 特殊情况第37-38页
    3.4 对比分析第38-39页
    3.5 本章小结第39-40页
4 基于改进LDA的新闻评论主题挖掘第40-59页
    4.1 新闻评论第40-43页
        4.1.1 新闻评论相关概念第40-41页
        4.1.2 针对LDA新闻评论数据特点第41-43页
        4.1.3 基于LDA的新闻评论主题挖掘第43页
    4.2 基于LDA的主题挖掘改进算法第43-45页
        4.2.1 原LDA主题挖掘算法在新闻评论中的不足第43-44页
        4.2.2 基于LDA的主题挖掘改进算法第44-45页
    4.3 基于LDA的新闻评论主题挖掘改进算法的过程及程序第45-52页
        4.3.1 系列新闻评论文本的爬取第47页
        4.3.2 语料标记第47-48页
        4.3.3 插入的过程(合并同段的评论并对它简化)第48页
        4.3.4 文档建模处理(l_1,l_2,...l_m )第48-51页
        4.3.5 评论主题挖掘分析第51-52页
        4.3.6 可视化分析第52页
    4.4 实验结果第52-57页
        4.4.1 对新闻评论用原lda算法聚类第52-56页
        4.4.2 对新闻评论用lda改进模型算法第56-57页
    4.5 改进LDA与原LDA主题演化算法的比较第57-58页
    4.6 本章小结第58-59页
5 基于改进K均值聚类的在线新闻评论主题挖掘第59-86页
    5.1 新闻评论第59-61页
        5.1.1 新闻评论针对聚类的新闻评论数据特点第59-60页
        5.1.2 基于K均值聚类的主题挖掘算法第60-61页
    5.2 基于改进K均值聚类的主题挖掘算法第61-65页
        5.2.1 K均值聚类在新闻评论数据上的不足第61页
        5.2.2 K均值聚类改进第61-65页
        5.2.3 基于改进K均值聚类主题挖掘算法第65页
    5.3 基于改进K均值聚类的新闻评论主题挖掘的过程及程序第65-74页
        5.3.1 系列新闻评论文本的爬取第68-69页
        5.3.2 语料标记第69页
        5.3.3 文档建模第69-73页
        5.3.4 评论主题挖掘分析第73-74页
        5.3.5 可视化分析第74页
    5.4 实验结果第74-83页
        5.4.1 爬取新闻评论文本并转化为结构化数据第74-76页
        5.4.2 在余弦距离下用原K-means算法聚类第76页
        5.4.3 在欧式距离下用原K-means算法聚类第76-77页
        5.4.4 在欧式距离下用改进的K-means聚类第77-81页
        5.4.5 基于改进的K-means聚类的主题挖掘第81-83页
    5.5 改进的K-means聚类算法与原K-means聚类算法结果比较第83-84页
        5.5.1 改进算法与在欧式距离下用原K-means算法比较聚类效果第83页
        5.5.2 在欧氏距离下的改进算法与在余弦距离下用原算法聚类第83-84页
    5.6 本章小结第84-86页
6 结论第86-87页
参考文献第87-90页
附录第90-120页
致谢第120页

论文共120页,点击 下载论文
上一篇:基于EGaIn液态合金可重构引向天线的设计与分析
下一篇:东准噶尔卡拉麦里地区早石炭世火山岩地球化学特征及地质意义