首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

自动文本分类若干基本问题研究

摘要第1-5页
ABSTRACT第5-8页
目录第8-13页
第一章 绪论第13-28页
   ·概述第13-17页
     ·本分类与自动文本分类第13页
     ·文本分类与文本挖掘第13-14页
     ·自动文本分类的实现途径第14-15页
     ·自动文本分类问题的定义第15-17页
   ·自动文本分类技术的应用第17-20页
     ·信息或知识的存取与管理第17-18页
     ·文档组织第18页
     ·文档过滤第18-19页
     ·词义辨析第19-20页
   ·基于学习的自动文本分类第20-22页
   ·自动文本分类技术的发展简史第22-23页
   ·本文研究工作概述第23-26页
   ·本文的内容安排第26-28页
第二章 文本分类的性能评估第28-46页
   ·引言第28-30页
   ·一般分类器的性能评估第30-33页
     ·常用评估指标第30-31页
     ·多类问题分解为两类问题的几种方式第31-33页
   ·文本分类器的性能评估第33-39页
     ·两类分类器的特点第33-34页
     ·ROC曲线第34-37页
     ·ROC曲线的数字特征第37-39页
     ·多类综合评估第39页
   ·文本分类器性能评估指标的改进第39-41页
     ·弃真率-取伪率曲线第40页
     ·风险平衡值第40-41页
   ·评估中统计检验方法第41-45页
     ·秩和检验第41-42页
     ·符号检验第42-43页
     ·宏t-检验第43-44页
     ·q-检验第44-45页
   ·本章小结第45-46页
第三章 文本文档的表示第46-71页
   ·引言第46-47页
   ·向量空间模型第47-52页
     ·去停用词和取词根第47-49页
     ·文本索引第49-51页
     ·特征权向量第51页
     ·规范化第51-52页
   ·不同词袋表示法的比较第52-59页
     ·影响词袋表示法的主要因素第52-53页
     ·实验设计第53-55页
     ·实验结果的统计分析第55-58页
     ·基本结论第58-59页
   ·其他文本表示方式第59-63页
     ·n-Gram表示法第59页
     ·n-Gram表示法与词袋表示法的比较第59-62页
     ·高级文本表示法第62-63页
   ·特征权对文本分类器性能的影响第63-69页
     ·文本分类器性能评估指标的概率表示第63-65页
     ·特征权对Bayes分类器正确分类概率的影响第65-68页
     ·特征权对BEP值的影响第68-69页
   ·本章小结第69-71页
第四章 文本特征的选择第71-89页
   ·引言第71-72页
   ·维数削减的基本概念和主要途径第72-75页
     ·基本概念第72页
     ·特征选择第72-74页
     ·特征抽取第74-75页
   ·传统的文本特征选择方法第75-79页
     ·互信息第76-77页
     ·x~2-统计量第77-78页
     ·关联系数与简约x~2-统计量第78-79页
     ·文档频率第79页
   ·几种新的特征选择方法第79-84页
     ·低损降维第79-81页
     ·频率差第81页
     ·Bayes准则第81-82页
     ·F_1值准则第82-83页
     ·Fisher鉴别量第83-84页
   ·不同特征选择方法的比较第84-88页
     ·实验设计第84-85页
     ·实验结果第85-87页
     ·基本结论第87-88页
   ·本章小结第88-89页
第五章 文本分类器的设计第89-106页
   ·引言第89页
   ·常用文本分类器第89-94页
     ·Rocchio第89-90页
     ·朴素贝叶斯第90-91页
     ·k近邻第91-92页
     ·支持向量机第92-93页
     ·线性最小二乘拟合第93-94页
   ·修正的Fisher鉴别准则及其在文本分类中的应用第94-102页
     ·Fisher鉴别准则第94-95页
     ·对Fisher鉴别准则的修正第95-97页
     ·最大散度差分类器第97-98页
     ·最大散度差分类器与其他分类器的关系第98-100页
     ·最大散度差分类器在文本分类中的应用第100-102页
   ·线性回归模型的进一步分析第102-105页
     ·正则化线性回归模型第102-103页
     ·最小模最小二乘误差分类器第103-104页
     ·最小模最小二乘误差分类器在文本分类中的应用第104-105页
   ·本章小结第105-106页
结束语第106-111页
致谢第111-112页
参考文献第112-122页
附录A第122-128页
附录B第128页

论文共128页,点击 下载论文
上一篇:中国早期现代化延误的原因——历史考察与理论分析
下一篇:江麓园项目投资可行性研究