摘要 | 第1-7页 |
ABSTRACT | 第7-12页 |
第一章 绪论 | 第12-27页 |
·引言 | 第12-13页 |
·课题研究背景 | 第13-15页 |
·文本分类和聚类技术概述 | 第15-18页 |
·文本分类和聚类领域面对的挑战 | 第18-20页 |
·文本分类和聚类领域巫需解决的问题 | 第20-21页 |
·本文的工作 | 第21-23页 |
参考文献 | 第23-27页 |
第二章 基于统计模型的文本分类 | 第27-73页 |
·引言 | 第27-28页 |
·基于 Bayes方法的垃圾邮件过滤 | 第28-41页 |
·Bayes方法 | 第28-30页 |
·垃圾邮件过滤 | 第30-31页 |
·基于朴素Bayes分类器的垃圾邮件过滤 | 第31-34页 |
·文本预处理技术 | 第34-37页 |
·基于增强朴素Bayes分类器的垃圾邮件过滤 | 第37-41页 |
·本节小结 | 第41页 |
·基于转导推理的无标签样本学习 | 第41-50页 |
·转导推理 | 第41-44页 |
·基于转导推理的无标签样本学习 | 第44-45页 |
·联合无标签/有标签样本的垃圾邮件过滤 | 第45-49页 |
·本节小结 | 第49-50页 |
·基于字符级统计方法的文本分类 | 第50-66页 |
·基于词频特性的统计方法及n-gram模型 | 第50-52页 |
·字符级统计方法 | 第52-55页 |
·基于字符级统计方法的垃圾邮件过滤 | 第55-57页 |
·基于字符级统计方法的短信分类 | 第57-65页 |
·本节小结 | 第65-66页 |
·本章小结 | 第66-67页 |
参考文献 | 第67-73页 |
第三章 基于分类器集成的文本分类 | 第73-104页 |
·引言 | 第73页 |
·分类器集成 | 第73-76页 |
·基于投票的集成 | 第76-83页 |
·基于投票的集成 | 第76-79页 |
·集成性能的理论界限 | 第79-83页 |
·基于 E+V(Error-Variance)分解的集成 | 第83-87页 |
·E+V(Error-Variance)分解 | 第83-86页 |
·集成性能的理论界限 | 第86-87页 |
·基于分类器集成的文本分类 | 第87-99页 |
·基于决策方法的选择性集成 | 第88-93页 |
·基于|V|指标优化的集成 | 第93-99页 |
·本章小结 | 第99-101页 |
参考文献 | 第101-104页 |
第四章 基于非线性方法的文本聚类 | 第104-127页 |
·引言 | 第104-105页 |
·基于流形学习方法的文本信息处理 | 第105-107页 |
·流形学习 | 第105-107页 |
·基于流形学习方法的文本信息处理 | 第107页 |
·中文词汇在语义空间中的分布 | 第107-114页 |
·基本介绍 | 第107-109页 |
·中文词汇在语义空间中的分布 | 第109-111页 |
·基于词聚类特性的特征选择 | 第111页 |
·实验结果 | 第111-114页 |
·基于 WordNet的短信聚类 | 第114-122页 |
·短信处理的重要性 | 第114页 |
·WordNet语义词典 | 第114-115页 |
·基于 WordNet的短信相似度计算 | 第115-119页 |
·基于语义的短信聚类 | 第119-120页 |
·实验结果 | 第120-122页 |
·本章小结 | 第122-124页 |
参考文献 | 第124-127页 |
第五章 结论与展望 | 第127-130页 |
·本文的总结 | 第127-128页 |
·进一步的工作 | 第128-130页 |
致谢 | 第130-131页 |
博士期间发表的论文 | 第131-133页 |
附录1: 中文词汇列表(683词) | 第133-135页 |