摘要 | 第1-5页 |
ABSTRACT | 第5-11页 |
1 绪论 | 第11-18页 |
·研究背景 | 第11-13页 |
·文本挖掘的定义 | 第12页 |
·文本挖掘的过程 | 第12-13页 |
·文本挖掘现状 | 第13-16页 |
·文本特征表示 | 第13-15页 |
·基于关键字的关联分析 | 第15页 |
·文本分类 | 第15-16页 |
·本文工作 | 第16-18页 |
·研究目标与研究内容 | 第16页 |
·本文结构 | 第16-18页 |
2 文本分类及其评估方法 | 第18-27页 |
·引言 | 第18页 |
·问题描述 | 第18-19页 |
·文本分类 | 第18页 |
·单标号文本分类与多标号文本分类 | 第18页 |
·类别中心分类与文档中心分类 | 第18-19页 |
·文本分类应用 | 第19页 |
·自动索引 | 第19页 |
·文本过滤 | 第19页 |
·Web 文档分类 | 第19页 |
·文本分类器 | 第19-22页 |
·KNN | 第20页 |
·支持向量机 | 第20-21页 |
·朴素贝叶斯 | 第21-22页 |
·文本分类模型的评估 | 第22-26页 |
·分类模型的评估 | 第22-23页 |
·评估指标 | 第23-26页 |
·小结 | 第26-27页 |
3 文本预处理 | 第27-40页 |
·引言 | 第27页 |
·特征抽取 | 第27-28页 |
·特征选择 | 第28-32页 |
·特征选择的机器学习方法 | 第28页 |
·评估函数方法 | 第28-30页 |
·全局特征选择方法 | 第30页 |
·基于文档频、词频的评估函数 | 第30-32页 |
·改进的文本特征向量表示 | 第32-36页 |
·问题描述 | 第32页 |
·文本向量表示方法 | 第32-34页 |
·基于特征权重阈值的特征向量表示方法 | 第34-36页 |
·实验结果及分析 | 第36-39页 |
·小结 | 第39-40页 |
4 文本关联分析 | 第40-55页 |
·引言 | 第40页 |
·关联规则基本概念 | 第40-42页 |
·频繁项集挖掘算法 | 第42-45页 |
·频繁项集挖掘算法分类 | 第42-43页 |
·广度优先搜索算法 Apriori | 第43页 |
·深度优先搜索算法 FP-Growth | 第43-45页 |
·基于关键字的文本关联分析 | 第45-46页 |
·改进的文本关联挖掘 | 第46-53页 |
·问题定义 | 第47-48页 |
·DL-COFI 算法 | 第48-53页 |
·实验结果 | 第53-54页 |
·小结 | 第54-55页 |
5 中文文本关联分类 | 第55-67页 |
·引言 | 第55-56页 |
·文本关联分类 | 第56-61页 |
·基于关联的分类器 CBA | 第56-58页 |
·基于关联规则的分类器 ARC | 第58-60页 |
·关联分类的规则修剪策略和分类策略 | 第60-61页 |
·利用改进的 CDD(类别区分度)算法进行测试文档关联分类 | 第61-66页 |
·问题陈述 | 第61页 |
·区分度算法描述 | 第61-63页 |
·实验结果及分析 | 第63-66页 |
·小结 | 第66-67页 |
6 结论及展望 | 第67-70页 |
·总结 | 第67-68页 |
·展望及进一步的工作 | 第68-70页 |
致谢 | 第70-71页 |
参考文献 | 第71-74页 |
附录 | 第74页 |