首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

一种利用TF-IDF方法结合词汇语义信息的文本相似度量方法研究

摘要第4-6页
Abstract第6-7页
第1章 绪论第11-16页
    1.1 研究背景及意义第11-12页
    1.2 国内外研究现状第12-13页
    1.3 存在的问题分析第13-14页
    1.4 本文的主要工作第14页
    1.5 本文的组织结构第14-16页
第2章 相关的文本分类工作第16-31页
    2.1 文本分类定义第16-17页
    2.2 文本表示模型第17-20页
        2.2.1 向量空间模型第17-19页
        2.2.2 布尔模型第19页
        2.2.3 概率模型第19-20页
    2.3 文本分类流程第20-21页
    2.4 特征选择第21-25页
        2.4.1 文档频率第22-23页
        2.4.2 信息增益第23-24页
        2.4.3 x~2统计第24-25页
    2.5 分类方法第25-29页
        2.5.1 朴素贝叶斯算法第25-26页
        2.5.2 KNN 算法第26-27页
        2.5.3 支持向量机(SVM)算法第27-28页
        2.5.4 Rocchio 算法第28-29页
    2.6 分类系统评估第29-31页
        2.6.1 准确率和召回率第29页
        2.6.2 F-度量值第29-30页
        2.6.3 宏平均第30-31页
第3章 文本相似度量方法第31-42页
    3.1 TF-TDF 方法第31-35页
        3.1.1 TF-IDF 的主要思想第31-33页
        3.1.2 TF-IDF 的研究现状第33-35页
    3.2 基于词项语义的文本相似度第35-36页
    3.3 TF-IDF 与词项语义信息相结合的文本预处理方法第36-41页
        3.3.1 文本分词第36-38页
        3.3.2 特殊词项过滤第38-39页
        3.3.3 文本预处理一般过程图第39-41页
    3.4 TF-IDF 方法与词项语义信息相结合的关键词项选择第41-42页
第4章 将 TF-IDF 方法与词汇语义信息相结合度量文本相似度第42-50页
    4.1 文本相似度计算的提出第42-46页
    4.2 词项相似度加权树的构建第46-48页
        4.2.1 词项相似度加权树的初始化第46-47页
        4.2.2 词项相似度加权树的加权及更新第47页
        4.2.3 网络图构造第47-48页
    4.3 TF-IDF 和语义分析相结合的文本相似度算法第48-50页
第5章 实验第50-63页
    5.1 实验数据第50-51页
    5.2 特征项选择第51-54页
    5.3 相似度阈值的确定第54-56页
    5.4 三种聚类算法下各方法的比较第56-63页
第6章 结论与展望第63-65页
    6.1 本文结论第63-64页
    6.2 后续工作第64-65页
参考文献第65-70页
致谢第70页

论文共70页,点击 下载论文
上一篇:软件测试技术在PDM系统中的应用
下一篇:基于OCR成绩单录入系统的设计与实现