互联网热点话题聚类研究与实现
摘要 | 第3-4页 |
ABSTRACT | 第4-5页 |
第1章 绪论 | 第8-13页 |
1.1 课题背景及研究意义 | 第8-9页 |
1.2 相关技术的研究情况 | 第9-11页 |
1.3 论文的主要内容 | 第11-13页 |
第2章 相关技术介绍 | 第13-31页 |
2.1 文本采集技术——网络爬虫 | 第13-14页 |
2.2 文本语料预处理——中文分词 | 第14-22页 |
2.2.1 中文分词系统概述 | 第14-15页 |
2.2.2 中文分词算法介绍 | 第15-19页 |
2.2.3 本论文分词器采用的中文分词算法 | 第19-22页 |
2.3 话题/报道模型 | 第22-28页 |
2.3.1 语言模型和空间向量模型 | 第22-24页 |
2.3.2 特征值提取法 | 第24-27页 |
2.3.3 特征值权重计算 | 第27-28页 |
2.4 相似度算法 | 第28-29页 |
2.4.1 语言模型相似度计算 | 第29页 |
2.4.2 向量空间模型相似度计算 | 第29页 |
2.5 文本聚类算法 | 第29-30页 |
2.6 本章小结 | 第30-31页 |
第3章 系统设计框架 | 第31-45页 |
3.1 整体设计思路 | 第31-32页 |
3.2 系统设计流程图 | 第32-33页 |
3.3 系统设计详解 | 第33-44页 |
3.3.1 网络爬虫的设计 | 第33-35页 |
3.3.2 中文分词的系统的选择 | 第35-37页 |
3.3.3 热点话题发现设计 | 第37-39页 |
3.3.4 相关试验数据测试 | 第39-44页 |
3.4 本章小结 | 第44-45页 |
第4章 热点话题聚类实现与验证 | 第45-52页 |
4.1 测试数据采集与预处理工作 | 第45-48页 |
4.2 文本聚类工作 | 第48-51页 |
4.3 本章小结 | 第51-52页 |
第5章 结束语 | 第52-54页 |
5.1 全文总结 | 第52页 |
5.2 工作不足与展望 | 第52-54页 |
参考文献 | 第54-56页 |
致谢 | 第56-57页 |
附录1 攻读硕士学位期间发表的论文 | 第57页 |