首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于维基百科的评论主题词聚类

摘要第5-6页
ABSTRACT第6页
第一章 绪论第9-12页
    1.1 研究背景与意义第9页
    1.2 研究现状及发展趋势第9-11页
        1.2.1 词聚类算法的研究现状第10页
        1.2.2 词聚类评价方法的研究现状第10-11页
    1.3 本文研究内容第11页
    1.4 本文的组织第11-12页
第二章 相关工作及研究进展第12-26页
    2.1 网络爬虫第12-17页
        2.1.1 基础技术第12-14页
        2.1.2 网络评论爬虫架构第14-16页
        2.1.3 URL 去重第16-17页
    2.2 文本预处理第17-19页
        2.2.1 中文分词技术介绍第18-19页
    2.3 聚类分析第19-22页
        2.3.1 聚类方法介绍第19-20页
        2.3.2 聚类评价方法第20-22页
    2.4 词聚类介绍第22-25页
        2.4.1 词的特征表示第22-23页
        2.4.2 特征选择方法第23-24页
        2.4.3 基于 hownet 的语义相似度计算第24-25页
    2.5 本章小结第25-26页
第三章 评论主题词的提取第26-36页
    3.1 本文提出的方法第26-27页
    3.2 垃圾评论去除第27-28页
    3.3 文本预处理第28页
        3.3.1 去除停用词第28页
    3.4 基于中文语法模式的引入第28-29页
        3.4.1 评论主题词提取模式第28-29页
        3.4.2 主题词构成模式第29页
    3.5 评论主题词的提取第29-31页
        3.5.1 高频主题词提取第29-30页
        3.5.2 剪枝-高频主题词提取第30页
        3.5.3 低频主题词提取第30-31页
    3.6 处理过程第31页
    3.7 实验与分析第31-35页
        3.7.1 实验数据第31-32页
        3.7.2 结果分析第32-35页
    3.8 本章小结第35-36页
第四章 基于维基百科的评论主题词聚类第36-51页
    4.1 本文提出的方法第36-37页
    4.2 中文维基百科下载第37-38页
        4.2.1 维基百科文章的获取第37-38页
    4.3 基于维基百科的词向量空间模型生成第38-43页
        4.3.1 词的向量空间模型的建立第39-43页
    4.4 相似度计算方法第43-44页
    4.5 词的相似度矩阵生成第44页
    4.6 主题词聚类算法第44-46页
    4.7 实验及结果分析第46-50页
        4.7.1 实验数据第46-47页
        4.7.2 结果分析第47-50页
    4.8 本章小结第50-51页
第五章 总结与展望第51-53页
    5.1 研究工作总结第51页
    5.2 未来展望第51-53页
致谢第53-54页
参考文献第54-59页
附录第59-60页
详细摘要第60-63页

论文共63页,点击 下载论文
上一篇:ePLC下的CoDeSys图编程仿真平台的研发
下一篇:永嘉县委党校教育研训大楼电气设计与节能研究