基于词共现模型的微博热点话题发现方法研究

摘要	第5-6页
ABSTRACT	第6页
第1章绪论	第9-15页
1.1 引言	第9-10页
1.2 研究背景及意义	第10-11页
1.3 国内外研究现状	第11-12页
1.3.1 基于语义方法的研究	第11页
1.3.2 基于统计学方法的研究	第11-12页
1.4 论文组织及结构	第12-15页
1.4.1 论文主要研究内容	第12-13页
1.4.2 论文结构安排	第13-15页
第2章微博话题发现相关理论研究	第15-27页
2.1 中文微博功能与特点	第15-16页
2.1.1 微博功能	第15-16页
2.1.2 微博传播特点	第16页
2.2 文本聚类	第16-19页
2.2.1 聚类算法的分类	第17-18页
2.2.2 文本聚类算法	第18-19页
2.3 文本预处理	第19-22页
2.3.1 文本分词	第19-20页
2.3.2 文本特征表示	第20-21页
2.3.3 文本特征提取	第21-22页
2.4“知网（Hownet）”	第22-26页
2.4.1“知网”基础概念	第22-25页
2.4.2 义原相似度计算	第25页
2.4.3 概念相似度计算	第25-26页
2.4.4 词语相似度计算	第26页
2.5 本章小结	第26-27页
第3章词共现方法发现微博热点话题	第27-34页
3.1 词共现模型	第27页
3.2 词共现图模型	第27-30页
3.3 改进的词共现方法	第30-31页
3.4 结合“知网”的词共现算法	第31-33页
3.5 本章小结	第33-34页
第4章系统的设计与实现	第34-39页
4.1 系统整体框架	第34-35页
4.2 数据收集模块	第35页
4.3 数据预处理模块	第35-36页
4.4 热点话题发现模块	第36-37页
4.5 话题展示模块	第37-38页
4.6 本章小结	第38-39页
第5章基于Hadoop平台算法的实现	第39-52页
5.1 Hadoop简介	第39-43页
5.1.1 HDFS	第39-40页
5.1.2 MapReduce	第40-41页
5.1.3 Hadoop整体架构	第41-43页
5.2 MapReduce编程基本原理	第43-44页
5.3 TF-IDF的Hadoop实现	第44-48页
5.3.1 TF-IDF算法简介	第44-45页
5.3.2 改进适用微博的TF-IDF算法	第45页
5.3.3 Hadoop平台算法的实现	第45-48页
5.4 词共现模型的Hadoop实现	第48-51页
5.5 本章小结	第51-52页
第6章实验及结果分析	第52-64页
6.1 实验环境	第52页
6.2 实验效果评价指标	第52-53页
6.3 实验结果与分析	第53-63页
6.3.1 传统词共现算法阈值确定	第53-55页
6.3.2 词共现方法与K-Means算法比较	第55-56页
6.3.3 传统词共现方法与结合“知网”词共现算法比较	第56-59页
6.3.4 传统词共现方法与改进词共现算法比较	第59-61页
6.3.5 传统词共现方法与Hadoop平台算法运行速度比较	第61-63页
6.4 本章小结	第63-64页
第7章总结与展望	第64-66页
7.1 本文工作总结	第64-65页
7.2 未来工作展望	第65-66页
致谢	第66-67页
参考文献	第67-69页
附录	第69页