首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于语义分析的半监督文本分类技术研究

摘要第4-5页
Abstract第5-6页
第1章 绪论第10-18页
    1.1 研究背景及意义第10-12页
        1.1.1 研究背景第10-12页
        1.1.2 研究意义第12页
    1.2 国内外研究现状第12-13页
    1.3 论文主要内容及结构第13-18页
        1.3.1 论文研究内容第13-15页
        1.3.2 论文结构第15-18页
第2章 文本分类相关技术概述第18-32页
    2.1 文本分类基础第18-19页
        2.1.1 文本分类的定义及过程第18-19页
        2.1.2 余弦相似度第19页
    2.2 文本预处理第19-20页
        2.2.1 分词第19-20页
        2.2.2 去停用词第20页
    2.3 特征选择第20-23页
        2.3.1 文档频率第21-22页
        2.3.2 信息增益第22页
        2.3.3 卡方统计第22-23页
    2.4 特征加权第23-24页
    2.5 文本分类算法第24-29页
        2.5.1 SVM算法第24-26页
        2.5.2 TSVM算法第26-27页
        2.5.3 基于确定性退火技术(DA)的改进型TSVM算法第27-29页
    2.6 统计学习理论第29-31页
    2.7 本章小结第31-32页
第3章 基于自动标注的监督文本分类模型第32-44页
    3.1 基于语义资源的文档自动标注第32-37页
        3.1.1 种类名称理解第33-35页
        3.1.2 种类名称扩展第35页
        3.1.3 基于概率值的文档初步标注第35-36页
        3.1.4 文档初步标注的优化第36-37页
    3.2 训练数据构建第37-39页
        3.2.1 改进的CHI值特征选择第37-38页
        3.2.2 特征权重赋值及归一化第38-39页
    3.3 监督分类器的构建第39-40页
    3.4 自动标注下的监督文本分类模型设计第40-42页
    3.5 本章小结第42-44页
第4章 基于改进型自动标注的半监督文本分类模型第44-50页
    4.1 改进的种类名称扩展第44-45页
        4.1.1 基于原始文档集的种类名称扩展第44-45页
        4.1.2 基于外部语料资源的种类名称扩展第45页
    4.2 基于向量空间模型的文档概率值初步标注第45-46页
    4.3 基于二次筛选的文档精确标注第46-47页
        4.3.1 基于概率值的粗排序第46页
        4.3.2 二次筛选获取精确标注文档第46-47页
    4.4 构建用于半监督学习的训练数据和测试数据第47-48页
        4.4.1 训练数据的构建第47页
        4.4.2 测试数据的构建第47-48页
    4.5 创建半监督分类器第48-49页
    4.6 本章小结第49-50页
第5章 实验及结果分析第50-64页
    5.1 评价指标第50-51页
    5.2 数据集选择第51-52页
    5.3 基于自动标注的监督文本分类模型实验及结果分析第52-56页
        5.3.1 实验过程第52-55页
        5.3.2 实验结果及分析第55-56页
    5.4 基于改进型自动标注的半监督文本分类模型实验及结果分析第56-61页
        5.4.1 实验过程第56-59页
        5.4.2 实验结果及分析第59-60页
        5.4.3 同基于自动标注的监督文本分类模型的对比分析第60-61页
    5.5 实验结果讨论第61-63页
    5.6 本章小结第63-64页
结论第64-66页
参考文献第66-70页
攻读硕士学位期间取得的研究成果第70-72页
致谢第72页

论文共72页,点击 下载论文
上一篇:基于语义相似度的文本分类方法研究
下一篇:基于Java和webSocket在线门诊系统设计与实现