首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

面向特定领域的文本识别和分类

摘要第1-8页
Abstract第8-10页
第1章 绪论第10-17页
 1.1 课题研究的目的和意义第10页
 1.2 自然语言处理技术简介第10-11页
 1.3 文本自动分类识别第11-14页
  1.3.1 文本分类识别的应用第11-12页
  1.3.2 文本自动分类的发展历程第12-14页
 1.4 本文主要研究内容第14-17页
第2章 特征提取与选择第17-30页
 2.1 分类识别简介第17-18页
 2.2 类别可分性判据第18-25页
  2.2.1 基于几何距离的可分性判据第19-22页
  2.2.2 基于后验概率的可分性判据第22-24页
  2.2.3 中文信息处理常用特征评价函数第24-25页
 2.3 特征提取第25-29页
  2.3.1 基于熵概念的特征提取与选择方法第25-27页
  2.3.2 特征选择中的直接挑选法第27-29页
   2.3.2.1 单独最优的特征选择第28页
   2.3.2.2 增添特征法第28页
   2.3.2.3 分支定界法第28-29页
 2.4 本章小结第29-30页
第3章 文本表示模型第30-40页
 3.1 文本的表示方法第30-31页
 3.2 文本的分词第31-39页
  3.2.1 什么是中文分词第31页
  3.2.2 中文分词技术简介第31-34页
   3.2.2.1 基于字符串匹配的分词方法第32页
   3.2.2.2 基于理解的分词方法第32-33页
   3.2.2.3 基于统计的分词方法第33页
   3.2.2.4 基于词形的分词第33-34页
  3.2.3 分词中的难题第34-35页
   3.2.3.1 歧义识别第34页
   3.2.3.2 新词识别第34-35页
  3.2.4 分词系统的目标第35-36页
  3.2.5 中文分词的应用第36页
  3.2.6 一种基于词典的分词算法第36-39页
   3.2.6.1 基于排序词表的分词算法第37-38页
   3.2.6.2 分词中应注意的几点第38-39页
   3.2.6.3 分词结果分析评价第39页
 3.3 本章小结第39-40页
第4章 通信类文本的识别第40-50页
 4.1 训练语料库的获取和预处理第40-41页
  4.1.1 训练语料库第40-41页
  4.1.2 文本的预处理第41页
 4.2 通信类文本的初步特征向量的建立第41-45页
  4.2.1 特征项初步选择算法第42-43页
  4.2.2 初步选择结果第43-44页
  4.2.3 其他特征词选取算法第44-45页
 4.3 通信类文本特征向量的提取和选择第45-46页
  4.3.1 直接挑选法第45页
  4.3.2 算法复杂度分析第45-46页
 4.4 决策区域和决策函数第46-49页
  4.4.1 权重计算第46-47页
  4.4.2 线性判决函数第47-49页
  4.4.3 基于相似度判决函数第49页
 4.5 本章小结第49-50页
第5章 文本分类第50-55页
 5.1 常用分类模型第50-52页
  5.1.1 决策树第50-51页
  5.1.2 神经网络第51页
  5.1.3 朴素贝叶斯模型第51-52页
 5.2 K-最近邻法第52-54页
  5.2.1 最近邻决策规则第52页
  5.2.2 剪辑最近邻法第52-53页
  5.2.3 具有拒绝决策的最近邻法第53页
  5.2.4 分类算法的性能评价第53-54页
 5.3 本章小结第54-55页
第6章 实验结果分析及系统扩展和推广第55-60页
 6.1 实验结果分析第55-56页
  6.1.1 训练样本集和测试样本集第55页
  6.1.2 通信类文本的识别结果及分析第55-56页
  6.1.3 K-最近邻法实验结果分析第56页
 6.2 系统扩展第56-58页
 6.3 系统推广第58-59页
 6.4 本章小结第59-60页
结论与展望第60-62页
参考文献第62-66页
致谢第66-67页
附录A(攻读学位期间所发表的学术论文目录)第67-68页
附录B(部分算法源代码)第68-73页
附录C(通信类文本特征词)第73-74页

论文共74页,点击 下载论文
上一篇:城市化进程中村民自治组织日益“行政化”的宏观体制根源
下一篇:莺歌海—琼东南盆地区中中新世以来低位扇体形成条件和成藏模式