首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于改进的TF-IDF算法的中文微博话题检测与研究

摘要第5-6页
Abstract第6页
第1章 绪论第9-14页
    1.1 研究目的和意义第9-10页
    1.2 国内外研究现状第10-12页
    1.3 论文研究内容第12-13页
    1.4 论文组织结构第13-14页
第2章 话题检测的相关理论第14-32页
    2.1 话题检测任务第14-15页
    2.2 文本的模型表示第15-16页
    2.3 特征提取算法第16-19页
        2.3.1 文档频率(DF)第17页
        2.3.2 信息增益(IG)法第17-18页
        2.3.3 χ2统计量(CHI)第18页
        2.3.4 互信息(MI)法第18-19页
        2.3.5 总结第19页
    2.4 特征权重算法第19-20页
        2.4.1 布尔权重第19-20页
        2.4.2 基于熵概念的权重第20页
        2.4.3 TF-IDF权重第20页
    2.5 文本相似度计算方法第20-22页
        2.5.1 向量的内积第21页
        2.5.2 夹角余弦距离第21页
        2.5.3 皮尔逊相关系数第21页
        2.5.4 最大最小方法第21-22页
    2.6 文本聚类算法第22-31页
        2.6.1 基于划分的聚类算法第23-26页
        2.6.2 基于层次的聚类算法第26-28页
        2.6.3 基于密度的聚类算法第28-30页
        2.6.4 基于网格的聚类算法第30-31页
    2.7 本章小结第31-32页
第3章 基于TF-IDF的改进算法第32-38页
    3.1 TF-IDF算法的相关研究第32-34页
    3.2 改进的TF-IDF算法第34-37页
        3.2.1 微博的动态属性分析第34-36页
        3.2.2 动能定理第36页
        3.2.3 TF-IDF-KE算法第36-37页
    3.4 本章小结第37-38页
第4章 中文微博话题检测系统的设计与实现第38-45页
    4.1 话题检测系统第38页
    4.2 数据采集第38-39页
    4.3 文本预处理第39-40页
    4.4 分词和词频统计第40-42页
        4.4.1 分词第40-41页
        4.4.2 去掉停用词第41-42页
        4.4.3 词频统计第42页
    4.5 特征权重计算和文本表示模型第42-43页
    4.6 文本相似度计算和文本聚类第43-44页
    4.7 本章小结第44-45页
第5章 实验分析与总结第45-50页
    5.1 实验环境第45页
    5.2 实验结果评价标准第45-46页
    5.3 实验设计及结果分析第46-49页
    5.4 本章小结第49-50页
结论第50-52页
参考文献第52-56页
攻读学位期间发表论文与研究成果清单第56-57页
致谢第57页

论文共57页,点击 下载论文
上一篇:基于FPGA和Cortex-M4的图像采集系统设计
下一篇:3D打印技术的风险控制研究