网络热点话题实时发现技术研究与实现

摘要	第4-5页
ABSTRACT	第5页
第一章绪论	第9-15页
1.1 研究背景和意义	第9-10页
1.2 国内外研究现状	第10-12页
1.3 研究内容与成果	第12-13页
1.4 论文组织结构	第13-15页
第二章热点话题实时发现系统介绍	第15-23页
2.1 系统总架构	第15-16页
2.2 功能设计	第16页
2.3 数据库设计	第16-22页
2.3.1 数据库的选择	第17页
2.3.2 表结构设计	第17-20页
2.3.3 存储过程	第20-22页
2.4 本章小结	第22-23页
第三章信息采集模块	第23-37页
3.1 网络爬虫介绍	第23-24页
3.2 工作原理	第24-27页
3.2.1 数据下载	第24-26页
3.2.2 Web页面解析	第26页
3.2.3 数据存储	第26-27页
3.3 热点话题实时发现系统爬虫	第27-36页
3.3.1 数据采集模块	第27-31页
3.3.1.1 种子网站选取	第27-30页
3.3.1.2 种子文件设计	第30页
3.3.1.3 数据下载设计	第30-31页
3.3.1.4 数据解析设计	第31页
3.3.2 微博数据采集	第31-33页
3.3.3 数据存储模块	第33-36页
3.4 本章小结	第36-37页
第四章文本预处理模块	第37-51页
4.1 中文分词及停用词过滤	第37-38页
4.1.1 中文分词现状	第37-38页
4.1.2 停用词过滤	第38页
4.2 文本特征表示	第38-41页
4.2.1 文本模型	第39-40页
4.2.1.1 布尔模型	第39页
4.2.1.2 概率模型	第39-40页
4.2.1.3 向量空间模型	第40页
4.2.2 特征提取方法	第40-41页
4.2.2.1 词频法(Word Frequency)	第40页
4.2.2.2 文档频次法(Document Frequency)	第40-41页
4.2.2.3 TF-IDF	第41页
4.3 热点话题实时发现系统预处理	第41-42页
4.4 分词算法详细设计	第42-49页
4.4.1 词典Trie树的构建	第43-45页
4.4.1.1 标准Tire树的构建	第43-44页
4.4.1.2 压缩Trie树的构建	第44-45页
4.4.2 文本DAG的构建	第45-47页
4.4.3 最优分词确定	第47-49页
4.4.3.1 正向和逆向最大匹配法	第47页
4.4.3.2 基于词频的匹配方法	第47-49页
4.5 本章小结	第49-51页
第五章热点话题提取模块	第51-63页
5.1 文本聚类介绍	第51-55页
5.1.1 基本概念	第51-52页
5.1.2 常用相似度标准介绍	第52-53页
5.1.2.1 距离	第52页
5.1.2.2 Jacccard系数	第52页
5.1.2.3 余弦相似度	第52-53页
5.1.2.4 皮尔森相关系数	第53页
5.1.3 常用聚类算法介绍	第53-55页
5.1.3.1 k-Means	第53-54页
5.1.3.2 凝聚层次聚类	第54-55页
5.2 聚类算法实现及分析	第55-61页
5.2.1 LDA	第55-56页
5.2.2 基于极大团的挖掘算法	第56-57页
5.2.3 结果分析	第57-61页
5.3 本章小结	第61-63页
第六章系统展示平台	第63-67页
6.1 系统环境	第63页
6.2 系统界面展示	第63-66页
6.3 本章小结	第66-67页
第七章总结与展望	第67-69页
7.1 工作总结	第67页
7.2 未来研究工作	第67-69页
参考文献	第69-71页
致谢	第71页