面向特定领域的文本识别和分类

摘要	第1-8页
Abstract	第8-10页
第1章绪论	第10-17页
1．1 课题研究的目的和意义	第10页
1．2 自然语言处理技术简介	第10-11页
1．3 文本自动分类识别	第11-14页
1．3．1 文本分类识别的应用	第11-12页
1．3．2 文本自动分类的发展历程	第12-14页
1．4 本文主要研究内容	第14-17页
第2章特征提取与选择	第17-30页
2．1 分类识别简介	第17-18页
2．2 类别可分性判据	第18-25页
2．2．1 基于几何距离的可分性判据	第19-22页
2．2．2 基于后验概率的可分性判据	第22-24页
2．2．3 中文信息处理常用特征评价函数	第24-25页
2．3 特征提取	第25-29页
2．3．1 基于熵概念的特征提取与选择方法	第25-27页
2．3．2 特征选择中的直接挑选法	第27-29页
2．3．2．1 单独最优的特征选择	第28页
2．3．2．2 增添特征法	第28页
2．3．2．3 分支定界法	第28-29页
2．4 本章小结	第29-30页
第3章文本表示模型	第30-40页
3．1 文本的表示方法	第30-31页
3．2 文本的分词	第31-39页
3．2．1 什么是中文分词	第31页
3．2．2 中文分词技术简介	第31-34页
3．2．2．1 基于字符串匹配的分词方法	第32页
3．2．2．2 基于理解的分词方法	第32-33页
3．2．2．3 基于统计的分词方法	第33页
3．2．2．4 基于词形的分词	第33-34页
3．2．3 分词中的难题	第34-35页
3．2．3．1 歧义识别	第34页
3．2．3．2 新词识别	第34-35页
3．2．4 分词系统的目标	第35-36页
3．2．5 中文分词的应用	第36页
3．2．6 一种基于词典的分词算法	第36-39页
3．2．6．1 基于排序词表的分词算法	第37-38页
3．2．6．2 分词中应注意的几点	第38-39页
3．2．6．3 分词结果分析评价	第39页
3．3 本章小结	第39-40页
第4章通信类文本的识别	第40-50页
4．1 训练语料库的获取和预处理	第40-41页
4．1．1 训练语料库	第40-41页
4．1．2 文本的预处理	第41页
4．2 通信类文本的初步特征向量的建立	第41-45页
4．2．1 特征项初步选择算法	第42-43页
4．2．2 初步选择结果	第43-44页
4．2．3 其他特征词选取算法	第44-45页
4．3 通信类文本特征向量的提取和选择	第45-46页
4．3．1 直接挑选法	第45页
4．3．2 算法复杂度分析	第45-46页
4．4 决策区域和决策函数	第46-49页
4．4．1 权重计算	第46-47页
4．4．2 线性判决函数	第47-49页
4．4．3 基于相似度判决函数	第49页
4．5 本章小结	第49-50页
第5章文本分类	第50-55页
5．1 常用分类模型	第50-52页
5．1．1 决策树	第50-51页
5．1．2 神经网络	第51页
5．1．3 朴素贝叶斯模型	第51-52页
5．2 K-最近邻法	第52-54页
5．2．1 最近邻决策规则	第52页
5．2．2 剪辑最近邻法	第52-53页
5．2．3 具有拒绝决策的最近邻法	第53页
5．2．4 分类算法的性能评价	第53-54页
5．3 本章小结	第54-55页
第6章实验结果分析及系统扩展和推广	第55-60页
6．1 实验结果分析	第55-56页
6．1．1 训练样本集和测试样本集	第55页
6．1．2 通信类文本的识别结果及分析	第55-56页
6．1．3 K-最近邻法实验结果分析	第56页
6．2 系统扩展	第56-58页
6．3 系统推广	第58-59页
6．4 本章小结	第59-60页
结论与展望	第60-62页
参考文献	第62-66页
致谢	第66-67页
附录A(攻读学位期间所发表的学术论文目录)	第67-68页
附录B(部分算法源代码)	第68-73页
附录C(通信类文本特征词)	第73-74页