首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于主题的海量中文文档去重技术研究

摘要第4-5页
Abstract第5-6页
第1章 绪论第10-16页
    1.1 选题背景第10页
    1.2 国内外研究现状第10-13页
    1.3 本文研究内容第13-14页
    1.4 本文组织结构第14-16页
第2章 相关技术与理论第16-32页
    2.1 词袋模型(BoW)第16页
    2.2 特征提取算法第16-20页
        2.2.1 文档频率(DF)第16-17页
        2.2.2 信息增益(IG)第17-18页
        2.2.3 互信息(MI)第18-19页
        2.2.4 X2统计量(CHI)第19页
        2.2.5 小结第19-20页
    2.3 特征词加权算法第20-23页
        2.3.1 布尔(Boolean)权重第20页
        2.3.2 词频(TF)权重第20-21页
        2.3.3 TF—IDF权重第21-22页
        2.3.4 信息熵权重第22-23页
        2.3.5 小结第23页
    2.4 相似度计算方法第23-27页
        2.4.1 欧式距离第23-24页
        2.4.2 夹角余弦距离第24-25页
        2.4.3 向量的内积第25页
        2.4.4 汉明距离第25-26页
        2.4.5 马氏距离第26页
        2.4.6 小结第26-27页
    2.5 文档分类算法第27-31页
        2.5.1 k邻近分类(kNN)第27-28页
        2.5.2 支持向量机分类(SVM)第28-29页
        2.5.3 朴素贝叶斯分类(Naive Bayesian)第29-30页
        2.5.4 小结第30-31页
    2.6 本章小结第31-32页
第3章 基于word2vec的文档向量降维方法第32-44页
    3.1 word2vec第32页
    3.2 基于word2vec的文档向量降维第32-38页
        3.2.1 预处理第34-35页
        3.2.2 特征词袋的初步建立第35页
        3.2.3 特征词袋浓缩第35-37页
        3.2.4 文档向量的建立第37-38页
    3.3 实验设计与分析第38-42页
        3.3.1 实验数据第38-39页
        3.3.2 评价指标第39页
        3.3.3 实验环境第39-40页
        3.3.4 实验结果分析第40-42页
    3.4 本章小结第42-44页
第4章 基于特征词位置和词性自适应权重的TF-IDF算法的改进第44-52页
    4.1 经典的TF-IDF第44-45页
    4.2 引入词位置自适应权重第45-46页
    4.3 引入词性自适应权重第46-47页
    4.4 实验设计与分析第47-51页
        4.4.1 实验设计第47-49页
        4.4.2 实验环境第49页
        4.4.3 实验结果分析第49-51页
    4.5 本章小结第51-52页
第5章 基于LSH的海量中文文档去重第52-64页
    5.1 LSH第52-53页
    5.2 基于LSH的海量中文文档去重第53-59页
        5.2.1 哈希函数的选择第53-57页
        5.2.2 基于二进制哈希码的查找与对比第57-59页
    5.3 实验设计与分析第59-62页
        5.3.1 实验设计第59-60页
        5.3.2 实验环境第60-61页
        5.3.3 实验结果及分析第61-62页
    5.4 本章小结第62-64页
结论第64-66页
参考文献第66-70页
攻读硕士学位期间获得的科研成果第70-72页
致谢第72页

论文共72页,点击 下载论文
上一篇:基于HTML5技术的导学案学习系统的设计与实现
下一篇:基于移动互联网的智慧课堂系统设计与实现