文本分类中的关键技术研究
| 中文摘要 | 第1-5页 |
| Abstract | 第5-9页 |
| 1 绪论 | 第9-14页 |
| ·研究意义 | 第9-10页 |
| ·国内外研究现状 | 第10-13页 |
| ·本文的组织结构 | 第13-14页 |
| 2 系统流程设计与文本预处理 | 第14-21页 |
| ·文本表示模型 | 第14-15页 |
| ·系统流程设计 | 第15-16页 |
| ·文本预处理 | 第16-21页 |
| ·字符编码转换 | 第16页 |
| ·中文文本分词 | 第16-19页 |
| ·停用词过滤 | 第19页 |
| ·统计词频 | 第19-21页 |
| 3 特征选择算法 | 第21-28页 |
| ·特征选择算法 | 第21-22页 |
| ·概念和作用 | 第21页 |
| ·特征选择的基本过程 | 第21-22页 |
| ·常见的特征选择算法 | 第22-26页 |
| ·特征频率 | 第22页 |
| ·文档频度法 | 第22-23页 |
| ·信息增益法 | 第23页 |
| ·文本证据权 | 第23-24页 |
| ·期望交叉熵 | 第24页 |
| ·互信息 | 第24-25页 |
| ·χ~2统计量 | 第25-26页 |
| ·改进的χ~2统计量算法 | 第26-28页 |
| 4 文本分类算法 | 第28-37页 |
| ·文本分类算法概述 | 第28页 |
| ·常见文本分类算法 | 第28-34页 |
| ·基于统计的文本分类算法 | 第28-32页 |
| ·基于规则的文本分类算法 | 第32-34页 |
| ·改进的KNN算法 | 第34-37页 |
| ·经典 KNN算法 | 第34页 |
| ·改进的KNN算法 | 第34-37页 |
| 5 算法评价与实验分析 | 第37-50页 |
| ·文本分类性能评价 | 第37-39页 |
| ·影响分类效果的主要因素 | 第37-38页 |
| ·评价标准 | 第38-39页 |
| ·测试语料 | 第39-40页 |
| ·SF算法实验分析 | 第40-43页 |
| ·改进的KNN算法实验分析 | 第43-47页 |
| ·基于SF及改进KNN算法的实验分析 | 第47-50页 |
| 6 总结和展望 | 第50-52页 |
| ·总结 | 第50-51页 |
| ·展望 | 第51-52页 |
| 参考文献 | 第52-56页 |
| 在校期间发表的学术论文、科研成果与奖励 | 第56-57页 |
| 致谢 | 第57页 |