首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

文本分类及其相关技术研究

摘要第1-11页
ABSTRACT第11-13页
第一章 绪论第13-22页
 1.1 研究背景和研究意义第13-14页
 1.2 问题描述第14-16页
 1.3 研究现状第16-19页
  1.3.1 国内外研究状况第16-17页
  1.3.2 当前研究重点第17-19页
 1.4 本文研究内容第19-20页
 1.5 本文结构第20-22页
第二章 文本分类技术第22-42页
 2.1 文本分类任务的特点第22-23页
 2.2 文档集第23-24页
 2.3 文档表示模型第24-26页
  2.3.1 文档特征第24-26页
  2.3.2 文档表示第26页
 2.4 文档特征选择方法第26-30页
  2.4.1 信息增量(Information Gain)第27页
  2.4.2 互信息(Mutual Information)第27-28页
  2.4.3 x~2统计第28页
  2.4.4 交叉熵(Cross Entropy)第28页
  2.4.5 证据权值(Weight of Evidence)第28-29页
  2.4.6 Fisher判别式第29页
  2.4.7 文档特征选择中的概率值估算第29-30页
 2.5 分类方法第30-38页
  2.5.1 基于统计的方法第30-35页
  2.5.2 人工神经网络第35-36页
  2.5.3 基于规则的方法第36-38页
 2.6 分类性能评估第38-42页
  2.6.1 单类赋值第39-40页
  2.6.2 多类排序第40-42页
第三章 基于密度的KNN分类器样本选择方法第42-53页
 3.1 引言第42-43页
 3.2 训练样本分布密度对分类结果的影响第43-44页
 3.3 基于密度的 KNN分类器训练样本裁剪方法第44-50页
  3.3.1 相关概念第44-46页
  3.3.2 样本裁剪方法第46-47页
  3.3.3 样本裁剪算法第47-48页
  3.3.4 参数估计第48-50页
 3.4 实验及结果分析第50-52页
 3.5 结论第52-53页
第四章 使用最大熵模型进行中文文本分类第53-67页
 4.1 引言第53-54页
 4.2 最大熵模型第54-58页
  4.2.1 特征函数第55-57页
  4.2.2 参数训练算法第57-58页
 4.3 基于最大熵模型的文本分类方法第58-59页
  4.3.1 特征函数的选择第58-59页
  4.3.2 平滑(Smoothing)技术第59页
 4.4 使用Bagging改善最大熵模型的分类性能第59-61页
  4.4.1 个体预测函数的生成方法第60页
  4.4.2 个体预测函数的生成方法第60页
  4.4.3 结合Bagging和最大熵模型第60-61页
 4.5 中文文本特征的生成方法第61-63页
  4.5.1 基本概念第61-62页
  4.5.2 N-Gram项生成算法第62-63页
 4.6 实验及结果分析第63-66页
  4.6.1 基本性能第63-66页
  4.6.2 稳定性第66页
 4.7 结论第66-67页
第五章 使用层次结构改善平面文本分类器的性能第67-78页
 5.1 引言第67-68页
 5.2 使用混淆矩阵构造文档类树第68-74页
  5.2.1 相关概念第68-69页
  5.2.2 混淆矩阵第69-70页
  5.2.3 使用聚类的方法构建类树第70-72页
  5.2.4 根据类别的混淆类别构建类别层次结构第72-74页
 5.3 层次化分类第74-75页
 5.4 实验及结果分析第75-77页
 5.5 结论第77-78页
第六章 文档流派分类研究第78-94页
 6.1 引言第78-81页
  6.1.1 研究意义第78-79页
  6.1.2 当前研究状况第79-81页
  6.1.3 本章的研究内容第81页
 6.2 基于特征情感色彩的分类方法第81-86页
  6.2.1 文本特征第81-82页
  6.2.2 判断形容词的语义倾向第82-83页
  6.2.3 计算词汇的情感倾向权值第83-85页
  6.2.4 人工确定文本特征及其情感倾向权值第85页
  6.2.5 分类过程第85-86页
 6.3 基于语义模式的分类方法第86-88页
  6.3.1 语义模式第86-87页
  6.3.2 文档预处理第87页
  6.3.3 分类过程第87-88页
 6.4 信息内容安全管理系统第88-92页
  6.4.1 系统结构第89-90页
  6.4.2 热门话题的识别第90页
  6.4.3 倾向性分析第90-91页
  6.4.4 自动摘要第91-92页
 6.5 实验结果第92-93页
 6.6 结论第93-94页
第七章 基于中图法的文本信息过滤研究第94-110页
 7.1 引言第94-95页
 7.2 用户兴趣模型第95-98页
  7.2.1 用户兴趣模型的表示第95-96页
  7.2.2 用户兴趣模型建立方法的分类第96-97页
  7.2.3 评价用户建模的基本标准第97页
  7.2.4 现有的用户模型构造方法第97-98页
 7.3 基于中图法的用户兴趣模型第98-104页
  7.3.1 中国图书馆分类法第98-99页
  7.3.2 中国分类主题词表第99-100页
  7.3.3 初始用户兴趣模型的构造第100-101页
  7.3.4 新信息的推送算法第101-102页
  7.3.5 用户兴趣模型的更新第102-104页
 7.4 基于中图法的科技文献过滤系统第104-108页
  7.4.1 体系结构第104-105页
  7.4.2 信息收集第105-106页
  7.4.3 用户兴趣模型的构建和更新第106-108页
 7.5 结论第108-110页
第八章 总结与展望第110-113页
 8.1 总结第110-111页
 8.2 进一步的工作第111-113页
参考文献第113-120页
攻读博士学位期间参与的科研项目及主要成果第120-122页
致谢第122-123页
论文独创性声明第123页
论文使用授权声明第123页

论文共123页,点击 下载论文
上一篇:BCR/ABL特异性siRNA真核表达载体构建及其对K562细胞的影响
下一篇:竞争情报市场格局和营销策略研究