首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

针对不平衡文本的分类方法研究

摘要第4-5页
ABSTRACT第5-6页
目录第7-9页
第一章 引言第9-12页
    1.1 研究背景第9-10页
    1.2 论文主要工作第10-11页
    1.3 论文组织结构第11-12页
第二章 文本分类技术第12-29页
    2.1 文本预处理第14-16页
        2.1.1 文本分词第14-16页
        2.1.2 去停用词第16页
    2.2 文本表示第16-19页
        2.2.1 布尔模型第16-17页
        2.2.2 向量空间模型第17-18页
        2.2.3 概率模型第18-19页
    2.3 文本特征选择方法第19-22页
        2.3.1 文档频数第19-20页
        2.3.2 信息增益第20页
        2.3.3 互信息第20-21页
        2.3.4 期望交叉熵第21页
        2.3.5 开方校验第21-22页
    2.4 文本分类方法第22-27页
        2.4.1 朴素贝叶斯第22-23页
        2.4.2 KNN第23-24页
        2.4.3 神经网络第24-25页
        2.4.4 决策树第25-26页
        2.4.5 支持向量机第26-27页
    2.5 文本分类性能评估方法第27-28页
    2.6 本章小结第28-29页
第三章 不平衡文本分类方法研究第29-36页
    3.1 研究背景第29页
    3.2 基于样本空间的改进第29-32页
        3.2.1 随机欠抽样(Random Under Sampling)第30页
        3.2.2 单边抽样(One-sided Sampling)第30-31页
        3.2.3 基于簇的欠抽样(Cluster-based Under Sampling)第31页
        3.2.4 随机过采样(Random Over Sampling)第31页
        3.2.5 临近过采样(NBO)第31-32页
        3.2.6 自生过采样(Generative Over Sampling)第32页
    3.3 基于分类算法的改进第32-33页
        3.3.1 代价补偿算法第32-33页
        3.3.2 集成学习方法第33页
        3.3.3 改进的特征选择算法第33页
    3.4 常用不平衡文本分类方法的性能研究第33-35页
        3.4.1 实验语料第34页
        3.4.2 实验设置及结果第34-35页
    3.5 本章小结第35-36页
第四章 基于同义词扩展的不平衡文本分类方法第36-45页
    4.1 同义词扩展原理第36-39页
    4.2 同义词词典第39-41页
    4.3 扩展规则第41-42页
    4.4 特征预抽取第42-43页
    4.5 同义词扩展流程第43-44页
    4.6 本章小结第44-45页
第五章 不平衡文本分类系统的设计与实现第45-63页
    5.1 系统架构第45-47页
    5.2 系统模块第47-53页
        5.2.1 系统配置模块第47-48页
        5.2.2 文本预处理模块第48-50页
        5.2.3 特征选择模块第50-51页
        5.2.4 同义词扩展模块第51-52页
        5.2.5 文本分类模块第52-53页
    5.3 实验与分析第53-62页
        5.3.1 实验语料及词典第53页
        5.3.2 实验一第53-57页
        5.3.3 实验二第57-58页
        5.3.4 实验三第58-60页
        5.3.5 实验四第60-62页
    5.4 本章小结第62-63页
第六章 结束语第63-65页
    6.1 工作总结第63-64页
    6.2 工作展望第64-65页
参考文献第65-69页
致谢第69-70页
作者攻读学位期间发表的学术论文目录第70页

论文共70页,点击 下载论文
上一篇:不同铝合金材料及薄壁铝合金管超声TIG复合焊工艺性能研究
下一篇:外加纵向磁场对水下湿法FCAW电弧特性及熔滴过渡的影响