首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

文本分类及其特征降维研究

致谢第2-3页
摘要第3-5页
Abstract第5-7页
目录第8-12页
图目录第12-14页
表目录第14-15页
第1章 绪论第15-27页
    1.1 研究背景及意义第15-16页
    1.2 国内外研究现状第16-23页
        1.2.1 特征降维及权重调整第17-19页
        1.2.2 不平衡文本分类问题第19-20页
        1.2.3 多层分类第20页
        1.2.4 分类算法及其它第20-23页
    1.3 面临的问题第23-24页
    1.4 主要工作第24-25页
    1.5 论文组织结构第25-27页
第2章 文本分类概述第27-44页
    2.1 文本分类的一般过程和框架第29-30页
    2.2 文本预处理第30页
    2.3 文本模型表示第30-33页
        2.3.1. 文档特征第30-31页
        2.3.2. 文本表示模型第31-33页
            2.3.2.1. 布尔模型第31-32页
            2.3.2.2. 向量空间模型第32页
            2.3.2.3. 概率模型第32-33页
    2.4 特征降维第33页
    2.5 特征权重第33-35页
    2.6 分类方法第35-36页
    2.7 分类性能评价第36-42页
        2.7.1 数据集第36-39页
        2.7.2 评价方法第39-40页
        2.7.3 评价标准第40-42页
    2.8 本章小结第42-44页
第3章 云模型理论及其意义第44-53页
    3.1 云模型的基本概念第44-46页
        3.1.1 云模型定义第44-46页
        3.1.2 云的数字特征第46页
    3.2 正态云模型第46-48页
        3.2.1 随机现象的正态分布第46-47页
        3.2.2 模糊集和正态隶属函数第47-48页
    3.3 云发生器第48-50页
        3.3.1 正向云发生器第48-49页
        3.3.2 逆向云发生器第49-50页
    3.4 云模型的引入第50-52页
        3.4.1 知识的不确定性第50-51页
        3.4.2 自然语言的不确定性第51页
        3.4.3 文本处理中引入云模型第51-52页
    3.5 本章小结第52-53页
第4章 基于云模型的文本分类器第53-70页
    4.1 传统的文本分类方法第53-61页
        4.1.1 基于统计的文本分类方法第53-58页
        4.1.2 基于连接的文本分类方法第58-60页
        4.1.3 基于规则的文本分类方法第60-61页
    4.2 基于云模型的文本分类器(CMTC)第61-65页
        4.2.1. 普通的云分类器第61-62页
        4.2.2. CMTC分类器第62-65页
        4.2.3. 算法实现第65页
    4.3 实验与结果分析第65-69页
        4.3.1. 平滑因子σ估计第66页
        4.3.2. 分类器性能比较实验第66-69页
    4.4 本章小结第69-70页
第5章 文本分类中基于逆云模型的特征选择方法第70-87页
    5.1 常用的特征选择方法第70-74页
        5.1.1. 文档频率(Document Frequency,DF)第70页
        5.1.2. 信息增益(Information Gain)第70-71页
        5.1.3. 文本证据权(Weight of Evidence)第71页
        5.1.4. 互信息(Mutual Information)第71-72页
        5.1.5. χ~2统计(CHI)第72页
        5.1.6. 相关系数第72-73页
        5.1.7. 交叉熵(Cross Entropy)第73页
        5.1.8. 几率比(Odds Ratio,OR)第73页
        5.1.9. 词条权(TS)第73-74页
    5.2 基于逆云模型的CMFS特征选择方法第74-81页
        5.2.1. 云模型期望曲线第74页
        5.2.2. 属性的云模型期望曲线第74-75页
        5.2.3. 属性的类别区分度度量第75-79页
        5.2.4. CMFS特征选择方法第79-81页
        5.2.5. 算法实现第81页
    5.3 实验与结果分析第81-86页
    5.4 本章小结第86-87页
第6章 面向不平衡文本的强类别相关特征选择方法第87-97页
    6.1 相关研究工作第88-89页
    6.2 强类别相关特征选择方法第89-93页
        6.2.1. 传统特征选择方法的四项基本信息元素第89-91页
        6.2.2. 强类别相关特征选择方法第91-93页
    6.3 实验结果及分析第93-96页
    6.4 本章小结第96-97页
第7章 基于Sprinkling的特征抽取方法第97-107页
    7.1 相关研究工作第97-98页
    7.2 常用的特征抽取方法第98-101页
        7.2.1 主成分分析(PCA)第98-99页
        7.2.2 潜在语义索引(LSI)第99-100页
        7.2.3 非负矩阵分解第100-101页
    7.3 基于Sprinkling的特征抽取方法第101-104页
        7.3.1 原始Sprinkling方法第101-102页
        7.3.2 基于Sprinkling的特征抽取方法第102-104页
    7.4 实验及结果分析第104-106页
    7.5 本章小结第106-107页
第8章 总结与展望第107-109页
    8.1 本文工作总结第107-108页
    8.2 展望第108-109页
参考文献第109-119页
简历第119-120页
攻读博士学位期间主要的研究成果第120页

论文共120页,点击 下载论文
上一篇:江西省高速公路沿线环境介质中重金属污染特征及其影响因素研究
下一篇:转化医学科研组织模式构建的研究