基于改进TF-IDF的文本信息热点话题发现
摘要 | 第1-4页 |
Abstract | 第4-8页 |
第1章 绪论 | 第8-15页 |
·热点话题发现的研究背景及意义 | 第8-9页 |
·国内外研究现状 | 第9-13页 |
·话题识别与跟踪 | 第9-11页 |
·特征词提取 | 第11页 |
·文本聚类 | 第11-13页 |
·存在的问题 | 第13页 |
·本论文主要内容 | 第13-14页 |
·本章小结 | 第14-15页 |
第2章 理论基础 | 第15-27页 |
·中文自动分词 | 第15-19页 |
·中文分词的难点 | 第15-16页 |
·自动分词的原则 | 第16-17页 |
·主要的分词方法 | 第17-19页 |
·关键词提取 | 第19-20页 |
·命名实体识别技术 | 第20-22页 |
·面临的主要困难 | 第20-22页 |
·主要的实现方法 | 第22页 |
·中文文本聚类技术 | 第22-26页 |
·K-means聚类算法 | 第24页 |
·基于高密度连接区域的DBSCAN聚类算法 | 第24-25页 |
·CURE算法 | 第25-26页 |
·本章小结 | 第26-27页 |
第3章 对TF-IDF函数的改进 | 第27-37页 |
·传统的TF-IDF函数 | 第27-28页 |
·引入多种附加权重后的改进TF-IDF函数 | 第28-30页 |
·网页特征词提取的流程 | 第30-32页 |
·语料样本的预处理 | 第30页 |
·实现流程 | 第30-32页 |
·实验评估 | 第32-36页 |
·背景语料的选择 | 第32页 |
·使用的评估指标 | 第32-33页 |
·确定位置权重 | 第33-35页 |
·实验结果 | 第35页 |
·结果分析 | 第35-36页 |
·本章小结 | 第36-37页 |
第4章 热点话题发现的实现方案 | 第37-46页 |
·语料样本的采集、解析和预处理 | 第37-40页 |
·Web信息采集 | 第37-38页 |
·信息抽取 | 第38-40页 |
·话题发现实现算法流程 | 第40-43页 |
·验证热点话题发现效果 | 第43-45页 |
·实验数据来源 | 第43页 |
·评测准则 | 第43-44页 |
·实验结果分析 | 第44-45页 |
·本章小结 | 第45-46页 |
第5章 总结与展望 | 第46-48页 |
·本论文的工作 | 第46页 |
·创新点 | 第46-47页 |
·潜在的问题和希望 | 第47-48页 |
参考文献 | 第48-51页 |
致谢 | 第51-52页 |
附录1 攻读硕士学位期间发表的论文 | 第52-53页 |
附录2 相关索引 | 第53页 |
A 表索引 | 第53页 |
B 图索引 | 第53页 |
C 公式索引 | 第53页 |