首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于维基百科的多种类型文献自动分类研究

中文摘要第4-6页
ABSTRACT第6-7页
1 绪论第10-17页
    1.1 研究背景第10页
    1.2 研究目的及意义第10-11页
        1.2.1 研究目的第10-11页
        1.2.2 研究意义第11页
    1.3 研究现状第11-13页
        1.3.1 多种文献类型文本分类研究第11-12页
        1.3.2 维基百科在跨领域研究中的应用第12-13页
    1.4 研究内容和方法第13-15页
        1.4.1 研究内容第13-14页
        1.4.2 研究方法第14-15页
    1.5 研究创新点第15-16页
    1.6 论文组织结构第16-17页
2 文本自动分类相关技术第17-29页
    2.1 文本分类流程第17-19页
    2.2 预处理第19-21页
        2.2.1 中文分词第19-20页
        2.2.2 词性、停用词过滤第20-21页
    2.3 特征选择第21页
    2.4 文本表示第21-23页
        2.4.1 布尔模型第21-22页
        2.4.2 向量空间模型第22-23页
        2.4.3 概率主题模型第23页
    2.5 分类算法第23-26页
        2.5.1 K最近邻算法第24页
        2.5.2 朴素贝叶斯算法第24-25页
        2.5.3 支持向量机算法第25-26页
    2.6 分类效果评估方法第26-28页
    2.7 本章小结第28-29页
3 基于维基百科的多种类型文本分类方法第29-41页
    3.1 本章概述第29页
    3.2 TF-IDF特征选择方法的改进第29-33页
        3.2.1 TF-IDF特征选择方法第29-30页
        3.2.2 改进的CDF_(max)-IDF特征选择方法第30-33页
    3.3 基于维基百科的特征扩展方法第33-36页
        3.3.1 基于维基百科的语义相关度计算第33-36页
        3.3.2 基于语义相关度的特征扩展方法第36页
    3.4 基于wLDA模型的文本分类方法第36-40页
        3.4.1 标准LDA模型概述第36-37页
        3.4.2 LDA主题模型的求解及评价第37-39页
        3.4.3 改进的LDA模型第39页
        3.4.4 基于wLDA模型的分类流程第39-40页
    3.5 本章小结第40-41页
4 实验及结果分析第41-48页
    4.1 实验准备第41-42页
        4.1.1 实验环境第41页
        4.1.2 实验语料第41-42页
        4.1.3 自动分类方法与评价方法第42页
    4.2 实验设计第42页
    4.3 实验结果及分析第42-46页
        4.3.1 最优主题数的确定第42-43页
        4.3.2 扩展特征语义相关度计算结果第43-45页
        4.3.3 本研究分类方法的对比验证第45-46页
    4.4 本章小结第46-48页
5 研究结论和展望第48-50页
    5.1 本文总结第48-49页
    5.2 工作展望第49-50页
参考文献第50-53页
攻读硕士期间发表的论文及参与课题第53-54页
致谢第54-55页

论文共55页,点击 下载论文
上一篇:基于执行切片的软件错误定位方法研究
下一篇:基于GIS的行业用海需求变化研究