首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于词嵌入文本聚类技术的研究与实现

摘要第4-6页
ABSTRACT第6-7页
第1章 绪论第10-17页
    1.1 课题研究背景和意义第10-11页
    1.2 国内外研究现状第11-15页
    1.3 课题研究内容第15页
    1.4 论文组织结构第15-17页
第2章 文本聚类的方法和过程第17-28页
    2.1 引言第17页
    2.2 文本预处理第17-21页
        2.2.1 文本格式化第18-19页
        2.2.2 文本分词及词性标注第19页
        2.2.3 去停用词和词性过滤第19-21页
    2.3 文本向量表示与特征降维第21-26页
        2.3.1 文本向量表示第21-22页
        2.3.2 特征降维(Dimensionality Reduction)第22-23页
        2.3.3 词袋模型与降维第23-24页
        2.3.4 主题模型与降维第24-26页
    2.4 常见文本聚类方法第26-27页
        2.4.1 K-均值聚类(K-means)第26页
        2.4.2 二分K均值聚类(Bisecting K-means)第26-27页
    2.5 本章小节第27-28页
第3章 TDE-DC新闻文本聚类方法第28-37页
    3.1 TDE-DC模型基本思想第28-29页
        3.1.1 新闻长文本聚类的困难第28-29页
        3.1.2 解决方法第29页
    3.2 主题文档向量TDE的获取第29-35页
        3.2.1 通过Skip-Gram获取词向量(Word Embedding)第29-33页
        3.2.2 通过LDA获取主题向量(Topic Embedding)第33-34页
        3.2.3 主题词向量TWE(Topic Word Embedding)第34-35页
        3.2.4 主题文档向量TDE(Topic Document Embedding)第35页
    3.3 TDE-DC文本聚类第35-36页
        3.3.2 聚类方法的选择第35-36页
    3.4 本章小结第36-37页
第4章 算法实现与实验分析第37-47页
    4.1 TDE-DC文本聚类的实现第37-40页
        4.1.0 数据集第38页
        4.1.1 预处理第38-39页
        4.1.2 参数设定第39-40页
        4.1.3 对比试验第40页
    4.2 文本聚类评估指标第40-43页
        4.2.1 熵值(Entropy)第40-41页
        4.2.2 纯度(purity)第41页
        4.2.3 标准化互信息(NMI)第41页
        4.2.4 F值第41-43页
    4.3 实验分析第43-46页
        4.3.1 实验环境第43页
        4.3.2 内存使用测试第43-44页
        4.3.3 训练消耗时间测试第44页
        4.3.4 聚类效果分析第44-46页
    4.4 本章小结第46-47页
第5章 总结和展望第47-48页
    5.1 总结第47页
    5.2 展望第47-48页
参考文献第48-51页
致谢第51-52页
附录第52-54页
    附录1计算所汉语词性标记集第52-53页
    附录2常用的中文分词工具第53-54页
    附录3停用词库第54页

论文共54页,点击 下载论文
上一篇:激光声音侦听技术应用于睡眠呼吸暂停综合征的初步研究
下一篇:乳腺超声分型与乳腺密度及乳腺癌的相关性研究