摘要 | 第1-5页 |
ABSTRACT | 第5-8页 |
目录 | 第8-13页 |
第一章 绪论 | 第13-28页 |
·概述 | 第13-17页 |
·本分类与自动文本分类 | 第13页 |
·文本分类与文本挖掘 | 第13-14页 |
·自动文本分类的实现途径 | 第14-15页 |
·自动文本分类问题的定义 | 第15-17页 |
·自动文本分类技术的应用 | 第17-20页 |
·信息或知识的存取与管理 | 第17-18页 |
·文档组织 | 第18页 |
·文档过滤 | 第18-19页 |
·词义辨析 | 第19-20页 |
·基于学习的自动文本分类 | 第20-22页 |
·自动文本分类技术的发展简史 | 第22-23页 |
·本文研究工作概述 | 第23-26页 |
·本文的内容安排 | 第26-28页 |
第二章 文本分类的性能评估 | 第28-46页 |
·引言 | 第28-30页 |
·一般分类器的性能评估 | 第30-33页 |
·常用评估指标 | 第30-31页 |
·多类问题分解为两类问题的几种方式 | 第31-33页 |
·文本分类器的性能评估 | 第33-39页 |
·两类分类器的特点 | 第33-34页 |
·ROC曲线 | 第34-37页 |
·ROC曲线的数字特征 | 第37-39页 |
·多类综合评估 | 第39页 |
·文本分类器性能评估指标的改进 | 第39-41页 |
·弃真率-取伪率曲线 | 第40页 |
·风险平衡值 | 第40-41页 |
·评估中统计检验方法 | 第41-45页 |
·秩和检验 | 第41-42页 |
·符号检验 | 第42-43页 |
·宏t-检验 | 第43-44页 |
·q-检验 | 第44-45页 |
·本章小结 | 第45-46页 |
第三章 文本文档的表示 | 第46-71页 |
·引言 | 第46-47页 |
·向量空间模型 | 第47-52页 |
·去停用词和取词根 | 第47-49页 |
·文本索引 | 第49-51页 |
·特征权向量 | 第51页 |
·规范化 | 第51-52页 |
·不同词袋表示法的比较 | 第52-59页 |
·影响词袋表示法的主要因素 | 第52-53页 |
·实验设计 | 第53-55页 |
·实验结果的统计分析 | 第55-58页 |
·基本结论 | 第58-59页 |
·其他文本表示方式 | 第59-63页 |
·n-Gram表示法 | 第59页 |
·n-Gram表示法与词袋表示法的比较 | 第59-62页 |
·高级文本表示法 | 第62-63页 |
·特征权对文本分类器性能的影响 | 第63-69页 |
·文本分类器性能评估指标的概率表示 | 第63-65页 |
·特征权对Bayes分类器正确分类概率的影响 | 第65-68页 |
·特征权对BEP值的影响 | 第68-69页 |
·本章小结 | 第69-71页 |
第四章 文本特征的选择 | 第71-89页 |
·引言 | 第71-72页 |
·维数削减的基本概念和主要途径 | 第72-75页 |
·基本概念 | 第72页 |
·特征选择 | 第72-74页 |
·特征抽取 | 第74-75页 |
·传统的文本特征选择方法 | 第75-79页 |
·互信息 | 第76-77页 |
·x~2-统计量 | 第77-78页 |
·关联系数与简约x~2-统计量 | 第78-79页 |
·文档频率 | 第79页 |
·几种新的特征选择方法 | 第79-84页 |
·低损降维 | 第79-81页 |
·频率差 | 第81页 |
·Bayes准则 | 第81-82页 |
·F_1值准则 | 第82-83页 |
·Fisher鉴别量 | 第83-84页 |
·不同特征选择方法的比较 | 第84-88页 |
·实验设计 | 第84-85页 |
·实验结果 | 第85-87页 |
·基本结论 | 第87-88页 |
·本章小结 | 第88-89页 |
第五章 文本分类器的设计 | 第89-106页 |
·引言 | 第89页 |
·常用文本分类器 | 第89-94页 |
·Rocchio | 第89-90页 |
·朴素贝叶斯 | 第90-91页 |
·k近邻 | 第91-92页 |
·支持向量机 | 第92-93页 |
·线性最小二乘拟合 | 第93-94页 |
·修正的Fisher鉴别准则及其在文本分类中的应用 | 第94-102页 |
·Fisher鉴别准则 | 第94-95页 |
·对Fisher鉴别准则的修正 | 第95-97页 |
·最大散度差分类器 | 第97-98页 |
·最大散度差分类器与其他分类器的关系 | 第98-100页 |
·最大散度差分类器在文本分类中的应用 | 第100-102页 |
·线性回归模型的进一步分析 | 第102-105页 |
·正则化线性回归模型 | 第102-103页 |
·最小模最小二乘误差分类器 | 第103-104页 |
·最小模最小二乘误差分类器在文本分类中的应用 | 第104-105页 |
·本章小结 | 第105-106页 |
结束语 | 第106-111页 |
致谢 | 第111-112页 |
参考文献 | 第112-122页 |
附录A | 第122-128页 |
附录B | 第128页 |