文本语料库的精炼研究

摘要	第4-5页
Abstract	第5页
第一章绪论	第8-12页
1.1 研究背景	第8-9页
1.2 预备知识	第9-12页
第二章文本自动分类技术	第12-15页
2.1 文本预处理	第12页
2.2 建立文本索引	第12页
2.3 文本特征集的选取	第12-13页
2.4 分类方法的选择	第13-14页
2.5 分类模型的评估与选择	第14页
2.6 小结	第14-15页
第三章朴素贝叶斯算法	第15-20页
3.1 算法的假设和理论	第15-16页
3.2 算法的参数估计	第16-17页
3.3 文本数据判别时的优化	第17-18页
3.4 实验分析	第18-20页
第四章文本语料库的精炼研究	第20-42页
4.1 数据来源	第20-22页
4.2 文本语料库精炼的目的	第22-23页
4.3 文本语料库的精炼	第23页
4.4 文本数据的预处理	第23-26页
4.5 文本语料库特征词的选取	第26-28页
4.6 行业类别特征词的选取	第28-33页
4.7 第一种方法提取类别判别错误的文本数据	第33-36页
4.8 用样本文本数据对总体文本数据进行标记	第36-39页
4.9 第二种方法提取类别判别错误的文本数据	第39-40页
4.10 文本数据的校正	第40-42页
第五章总结	第42-43页
参考文献	第43-45页
致谢	第45页