互联网热点话题聚类研究与实现

摘要	第3-4页
ABSTRACT	第4-5页
第1章绪论	第8-13页
1.1 课题背景及研究意义	第8-9页
1.2 相关技术的研究情况	第9-11页
1.3 论文的主要内容	第11-13页
第2章相关技术介绍	第13-31页
2.1 文本采集技术——网络爬虫	第13-14页
2.2 文本语料预处理——中文分词	第14-22页
2.2.1 中文分词系统概述	第14-15页
2.2.2 中文分词算法介绍	第15-19页
2.2.3 本论文分词器采用的中文分词算法	第19-22页
2.3 话题/报道模型	第22-28页
2.3.1 语言模型和空间向量模型	第22-24页
2.3.2 特征值提取法	第24-27页
2.3.3 特征值权重计算	第27-28页
2.4 相似度算法	第28-29页
2.4.1 语言模型相似度计算	第29页
2.4.2 向量空间模型相似度计算	第29页
2.5 文本聚类算法	第29-30页
2.6 本章小结	第30-31页
第3章系统设计框架	第31-45页
3.1 整体设计思路	第31-32页
3.2 系统设计流程图	第32-33页
3.3 系统设计详解	第33-44页
3.3.1 网络爬虫的设计	第33-35页
3.3.2 中文分词的系统的选择	第35-37页
3.3.3 热点话题发现设计	第37-39页
3.3.4 相关试验数据测试	第39-44页
3.4 本章小结	第44-45页
第4章热点话题聚类实现与验证	第45-52页
4.1 测试数据采集与预处理工作	第45-48页
4.2 文本聚类工作	第48-51页
4.3 本章小结	第51-52页
第5章结束语	第52-54页
5.1 全文总结	第52页
5.2 工作不足与展望	第52-54页
参考文献	第54-56页
致谢	第56-57页
附录1 攻读硕士学位期间发表的论文	第57页