基于维基百科的评论主题词聚类

摘要	第5-6页
ABSTRACT	第6页
第一章绪论	第9-12页
1.1 研究背景与意义	第9页
1.2 研究现状及发展趋势	第9-11页
1.2.1 词聚类算法的研究现状	第10页
1.2.2 词聚类评价方法的研究现状	第10-11页
1.3 本文研究内容	第11页
1.4 本文的组织	第11-12页
第二章相关工作及研究进展	第12-26页
2.1 网络爬虫	第12-17页
2.1.1 基础技术	第12-14页
2.1.2 网络评论爬虫架构	第14-16页
2.1.3 URL 去重	第16-17页
2.2 文本预处理	第17-19页
2.2.1 中文分词技术介绍	第18-19页
2.3 聚类分析	第19-22页
2.3.1 聚类方法介绍	第19-20页
2.3.2 聚类评价方法	第20-22页
2.4 词聚类介绍	第22-25页
2.4.1 词的特征表示	第22-23页
2.4.2 特征选择方法	第23-24页
2.4.3 基于 hownet 的语义相似度计算	第24-25页
2.5 本章小结	第25-26页
第三章评论主题词的提取	第26-36页
3.1 本文提出的方法	第26-27页
3.2 垃圾评论去除	第27-28页
3.3 文本预处理	第28页
3.3.1 去除停用词	第28页
3.4 基于中文语法模式的引入	第28-29页
3.4.1 评论主题词提取模式	第28-29页
3.4.2 主题词构成模式	第29页
3.5 评论主题词的提取	第29-31页
3.5.1 高频主题词提取	第29-30页
3.5.2 剪枝-高频主题词提取	第30页
3.5.3 低频主题词提取	第30-31页
3.6 处理过程	第31页
3.7 实验与分析	第31-35页
3.7.1 实验数据	第31-32页
3.7.2 结果分析	第32-35页
3.8 本章小结	第35-36页
第四章基于维基百科的评论主题词聚类	第36-51页
4.1 本文提出的方法	第36-37页
4.2 中文维基百科下载	第37-38页
4.2.1 维基百科文章的获取	第37-38页
4.3 基于维基百科的词向量空间模型生成	第38-43页
4.3.1 词的向量空间模型的建立	第39-43页
4.4 相似度计算方法	第43-44页
4.5 词的相似度矩阵生成	第44页
4.6 主题词聚类算法	第44-46页
4.7 实验及结果分析	第46-50页
4.7.1 实验数据	第46-47页
4.7.2 结果分析	第47-50页
4.8 本章小结	第50-51页
第五章总结与展望	第51-53页
5.1 研究工作总结	第51页
5.2 未来展望	第51-53页
致谢	第53-54页
参考文献	第54-59页
附录	第59-60页
详细摘要	第60-63页