基于新浪微博的热点话题发现系统研究与实现

目录	第3-6页
摘要	第6-7页
Abstract	第7页
1 绪论	第8-16页
1.1 研究背景及意义	第8-9页
1.2 国内外研究现状	第9-14页
1.2.1 话题发现与跟踪的相关研究	第9-11页
1.2.2 网络舆情的相关研究	第11-13页
1.2.3 短文本聚类的相关研究	第13-14页
1.3 本文工作及创新点	第14页
1.4 论文结构	第14-16页
2 相关技术介绍	第16-26页
2.1 文本聚类技术	第16-21页
2.1.1 聚类概念与聚类过程	第16-17页
2.1.2 文本表示模型	第17-18页
2.1.3 文本相似度	第18-19页
2.1.4 聚类分析算法	第19-20页
2.1.5 K-Means聚类	第20页
2.1.6 BIRCH聚类	第20-21页
2.2 中文自动分词	第21-22页
2.3 微博及网络热点	第22-24页
2.3.1 微博	第22-23页
2.3.2 网络热点	第23-24页
2.4 AJAX技术	第24-26页
2.4.1 AJAX原理	第24页
2.4.2 AJAX应用及优缺点	第24-26页
3 微博数据的抓取和预处理	第26-32页
3.1 微博数据的抓取	第26-29页
3.1.1 微博内容的抓取	第26-28页
3.1.2 微博用户信息的抓取	第28-29页
3.2 数据集预处理	第29-31页
3.2.1 微博内容	第29-30页
3.2.2 用户信息	第30-31页
3.3 本章小结	第31-32页
4 微博热点发现系统	第32-47页
4.1 系统总体设计思路	第32-34页
4.2 数据结构设计	第34-37页
4.2.1 微博	第34-35页
4.2.2 用户	第35-36页
4.2.3 微话题	第36页
4.2.4 热点	第36-37页
4.3 二次聚类算法设计	第37-44页
4.3.1 聚类前的准备工作	第37-38页
4.3.2 初次聚类-Kmeans聚类	第38-41页
4.3.3 二次聚类-层次聚类BIRCH	第41-44页
4.4 热点排序	第44-46页
4.4.1 热度及用户影响力	第44-45页
4.4.2 微博热度	第45页
4.4.3 微话题热度	第45页
4.4.4 热点热度	第45-46页
4.5 热点展现	第46页
4.6 本章小结	第46-47页
5 实验及分析	第47-54页
5.1 实验环境	第47页
5.2 实验过程	第47-53页
5.2.1 微博数据抓取	第47-48页
5.2.2 微博用户	第48-49页
5.2.3 第一次聚类	第49-50页
5.2.4 第二次聚类	第50-51页
5.2.5 热度计算	第51-52页
5.2.6 热点趋势	第52-53页
5.3 实验结果分析	第53-54页
6 总结与展望	第54-55页
参考文献	第55-59页
致谢	第59-60页