首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

面向文本聚类的语义加权研究

摘要第5-7页
ABSTRACT第7-8页
第一章 绪论第12-19页
    1.1 引言第12-13页
    1.2 文本挖掘简介第13-15页
    1.3 文本聚类技术第15页
    1.4 文本聚类应用第15-16页
    1.5 文本聚类存在主要问题第16-17页
    1.6 本文的工作第17-19页
第二章 文本表示模型和文本聚类算法第19-39页
    2.1. 文本的预处理第19-21页
        2.1.1. 中文文本特征项的表示第19-20页
        2.1.2. 分词第20-21页
        2.1.3. 停用词第21页
    2.2. 文本表示模型第21-24页
        2.2.1. 布尔模型第21-22页
        2.2.2. 向量空间模型第22-23页
        2.2.3 概率检索模型第23页
        2.2.4. 语言模型第23-24页
    2.3. 文本相似度衡量第24-26页
        2.3.1. 文档与文档之间的相似度度量第24-25页
        2.3.2. 文档集合与文档集合之间的相似度度量第25-26页
        2.3.3. 文档与文档集合之间的相似度度量第26页
    2.4. 文档信息特征集的缩减第26-28页
        2.4.1. 信息增益第26-27页
        2.4.2. 期望交叉熵第27页
        2.4.3. 互信息量第27页
        2.4.4. 文本证据权第27-28页
        2.4.5. 词频第28页
    2.5. 聚类算法第28-36页
        2.5.1. 划分方法第28-31页
        2.5.2. 层次方法第31-34页
        2.5.3. 基于密度的方法第34-35页
        2.5.4. 基于网格的方法第35页
        2.5.5. 基于模型的方法第35-36页
    2.6. 文本聚类效果评价指标第36-38页
    2.7. 本章小结第38-39页
第三章 基于语义的特征向量加权方法第39-55页
    3.1. 基本向量空间模型的建立第39-40页
    3.2. 基于语义的加权方法第40-44页
        3.2.1. 基于单词词性的加权方法第41-42页
        3.2.2. 基于单词位置的加权方法第42-43页
        3.2.3. 基于单词长度的加权方法第43页
        3.2.4. 基于词语间的语义关系的加权方法第43-44页
    3.3. 基于词语相关度的加权方法第44-47页
        3.3.1. 词语间相关度第44页
        3.3.2. 词语相关度的计算第44-46页
        3.3.3. 词语相关度的加权方法第46-47页
    3.4. 基于词语相似度的加权方法第47-53页
        3.4.1. 词语同义词第47-48页
        3.4.2. 词语相似度第48页
        3.4.3. 《知网》的知识描述语言第48-50页
        3.4.4. 词语相似度的计算第50-51页
        3.4.5. 词语相似度的加权方法第51-53页
    3.5. 多重加权方法的叠加使用方法第53-54页
    3.6. 本章小结第54-55页
第四章 实验研究分析第55-74页
    4.1. 实验环境介绍第55-60页
        4.1.1. 实验系统环境第55-56页
        4.1.2. 分词模块介绍第56-58页
        4.1.3. 语料库介绍第58页
        4.1.4. 词语相似度计算程序第58-60页
    4.2. 实验设计第60-66页
        4.2.1. 实验架构第60页
        4.2.2. 语料库处理模块第60-61页
        4.2.3. 分词模块第61-62页
        4.2.4. 特征向量缩减模块第62页
        4.2.5. 向量加权模块第62-63页
        4.2.6. 聚类算法模块第63-64页
        4.2.7. 评价输出模块第64-66页
    4.3. 实验结果及分析第66-73页
        4.3.1. 基本单词词性的加权方法第66-67页
        4.3.2. 基于单词位置的加权方法第67-68页
        4.3.3. 基于单词长度的加权方法第68-69页
        4.3.4. 基于词语相关度加权方法第69-70页
        4.3.5. 基于词语相似度的加权方法第70-72页
        4.3.6. 多重加权方法叠加使用第72-73页
    4.4. 本章小结第73-74页
第五章 总结与展望第74-76页
    5.1. 总结第74页
    5.2. 展望第74-76页
参考文献第76-78页
致谢第78-79页
攻读学位期间发表的学术论文第79页

论文共79页,点击 下载论文
上一篇:基于Web2.0的社会化网络开发框架的应用和研究
下一篇:基于领域知识的限定域中文问答系统研究