首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于改进TF-IDF的文本信息热点话题发现

摘要第1-4页
Abstract第4-8页
第1章 绪论第8-15页
   ·热点话题发现的研究背景及意义第8-9页
   ·国内外研究现状第9-13页
     ·话题识别与跟踪第9-11页
     ·特征词提取第11页
     ·文本聚类第11-13页
   ·存在的问题第13页
   ·本论文主要内容第13-14页
   ·本章小结第14-15页
第2章 理论基础第15-27页
   ·中文自动分词第15-19页
     ·中文分词的难点第15-16页
     ·自动分词的原则第16-17页
     ·主要的分词方法第17-19页
   ·关键词提取第19-20页
   ·命名实体识别技术第20-22页
     ·面临的主要困难第20-22页
     ·主要的实现方法第22页
   ·中文文本聚类技术第22-26页
     ·K-means聚类算法第24页
     ·基于高密度连接区域的DBSCAN聚类算法第24-25页
     ·CURE算法第25-26页
   ·本章小结第26-27页
第3章 对TF-IDF函数的改进第27-37页
   ·传统的TF-IDF函数第27-28页
   ·引入多种附加权重后的改进TF-IDF函数第28-30页
   ·网页特征词提取的流程第30-32页
     ·语料样本的预处理第30页
     ·实现流程第30-32页
   ·实验评估第32-36页
     ·背景语料的选择第32页
     ·使用的评估指标第32-33页
     ·确定位置权重第33-35页
     ·实验结果第35页
     ·结果分析第35-36页
   ·本章小结第36-37页
第4章 热点话题发现的实现方案第37-46页
   ·语料样本的采集、解析和预处理第37-40页
     ·Web信息采集第37-38页
     ·信息抽取第38-40页
   ·话题发现实现算法流程第40-43页
   ·验证热点话题发现效果第43-45页
     ·实验数据来源第43页
     ·评测准则第43-44页
     ·实验结果分析第44-45页
   ·本章小结第45-46页
第5章 总结与展望第46-48页
   ·本论文的工作第46页
   ·创新点第46-47页
   ·潜在的问题和希望第47-48页
参考文献第48-51页
致谢第51-52页
附录1 攻读硕士学位期间发表的论文第52-53页
附录2 相关索引第53页
 A 表索引第53页
 B 图索引第53页
 C 公式索引第53页

论文共53页,点击 下载论文
上一篇:嵌入式操作系统中单CPU的多任务调度算法的研究
下一篇:一种千兆SFP光纤收发模块的电路设计与实现