文本分类中的关键技术研究
中文摘要 | 第1-5页 |
Abstract | 第5-9页 |
1 绪论 | 第9-14页 |
·研究意义 | 第9-10页 |
·国内外研究现状 | 第10-13页 |
·本文的组织结构 | 第13-14页 |
2 系统流程设计与文本预处理 | 第14-21页 |
·文本表示模型 | 第14-15页 |
·系统流程设计 | 第15-16页 |
·文本预处理 | 第16-21页 |
·字符编码转换 | 第16页 |
·中文文本分词 | 第16-19页 |
·停用词过滤 | 第19页 |
·统计词频 | 第19-21页 |
3 特征选择算法 | 第21-28页 |
·特征选择算法 | 第21-22页 |
·概念和作用 | 第21页 |
·特征选择的基本过程 | 第21-22页 |
·常见的特征选择算法 | 第22-26页 |
·特征频率 | 第22页 |
·文档频度法 | 第22-23页 |
·信息增益法 | 第23页 |
·文本证据权 | 第23-24页 |
·期望交叉熵 | 第24页 |
·互信息 | 第24-25页 |
·χ~2统计量 | 第25-26页 |
·改进的χ~2统计量算法 | 第26-28页 |
4 文本分类算法 | 第28-37页 |
·文本分类算法概述 | 第28页 |
·常见文本分类算法 | 第28-34页 |
·基于统计的文本分类算法 | 第28-32页 |
·基于规则的文本分类算法 | 第32-34页 |
·改进的KNN算法 | 第34-37页 |
·经典 KNN算法 | 第34页 |
·改进的KNN算法 | 第34-37页 |
5 算法评价与实验分析 | 第37-50页 |
·文本分类性能评价 | 第37-39页 |
·影响分类效果的主要因素 | 第37-38页 |
·评价标准 | 第38-39页 |
·测试语料 | 第39-40页 |
·SF算法实验分析 | 第40-43页 |
·改进的KNN算法实验分析 | 第43-47页 |
·基于SF及改进KNN算法的实验分析 | 第47-50页 |
6 总结和展望 | 第50-52页 |
·总结 | 第50-51页 |
·展望 | 第51-52页 |
参考文献 | 第52-56页 |
在校期间发表的学术论文、科研成果与奖励 | 第56-57页 |
致谢 | 第57页 |