摘要 | 第1-11页 |
ABSTRACT | 第11-13页 |
第一章 绪论 | 第13-22页 |
1.1 研究背景和研究意义 | 第13-14页 |
1.2 问题描述 | 第14-16页 |
1.3 研究现状 | 第16-19页 |
1.3.1 国内外研究状况 | 第16-17页 |
1.3.2 当前研究重点 | 第17-19页 |
1.4 本文研究内容 | 第19-20页 |
1.5 本文结构 | 第20-22页 |
第二章 文本分类技术 | 第22-42页 |
2.1 文本分类任务的特点 | 第22-23页 |
2.2 文档集 | 第23-24页 |
2.3 文档表示模型 | 第24-26页 |
2.3.1 文档特征 | 第24-26页 |
2.3.2 文档表示 | 第26页 |
2.4 文档特征选择方法 | 第26-30页 |
2.4.1 信息增量(Information Gain) | 第27页 |
2.4.2 互信息(Mutual Information) | 第27-28页 |
2.4.3 x~2统计 | 第28页 |
2.4.4 交叉熵(Cross Entropy) | 第28页 |
2.4.5 证据权值(Weight of Evidence) | 第28-29页 |
2.4.6 Fisher判别式 | 第29页 |
2.4.7 文档特征选择中的概率值估算 | 第29-30页 |
2.5 分类方法 | 第30-38页 |
2.5.1 基于统计的方法 | 第30-35页 |
2.5.2 人工神经网络 | 第35-36页 |
2.5.3 基于规则的方法 | 第36-38页 |
2.6 分类性能评估 | 第38-42页 |
2.6.1 单类赋值 | 第39-40页 |
2.6.2 多类排序 | 第40-42页 |
第三章 基于密度的KNN分类器样本选择方法 | 第42-53页 |
3.1 引言 | 第42-43页 |
3.2 训练样本分布密度对分类结果的影响 | 第43-44页 |
3.3 基于密度的 KNN分类器训练样本裁剪方法 | 第44-50页 |
3.3.1 相关概念 | 第44-46页 |
3.3.2 样本裁剪方法 | 第46-47页 |
3.3.3 样本裁剪算法 | 第47-48页 |
3.3.4 参数估计 | 第48-50页 |
3.4 实验及结果分析 | 第50-52页 |
3.5 结论 | 第52-53页 |
第四章 使用最大熵模型进行中文文本分类 | 第53-67页 |
4.1 引言 | 第53-54页 |
4.2 最大熵模型 | 第54-58页 |
4.2.1 特征函数 | 第55-57页 |
4.2.2 参数训练算法 | 第57-58页 |
4.3 基于最大熵模型的文本分类方法 | 第58-59页 |
4.3.1 特征函数的选择 | 第58-59页 |
4.3.2 平滑(Smoothing)技术 | 第59页 |
4.4 使用Bagging改善最大熵模型的分类性能 | 第59-61页 |
4.4.1 个体预测函数的生成方法 | 第60页 |
4.4.2 个体预测函数的生成方法 | 第60页 |
4.4.3 结合Bagging和最大熵模型 | 第60-61页 |
4.5 中文文本特征的生成方法 | 第61-63页 |
4.5.1 基本概念 | 第61-62页 |
4.5.2 N-Gram项生成算法 | 第62-63页 |
4.6 实验及结果分析 | 第63-66页 |
4.6.1 基本性能 | 第63-66页 |
4.6.2 稳定性 | 第66页 |
4.7 结论 | 第66-67页 |
第五章 使用层次结构改善平面文本分类器的性能 | 第67-78页 |
5.1 引言 | 第67-68页 |
5.2 使用混淆矩阵构造文档类树 | 第68-74页 |
5.2.1 相关概念 | 第68-69页 |
5.2.2 混淆矩阵 | 第69-70页 |
5.2.3 使用聚类的方法构建类树 | 第70-72页 |
5.2.4 根据类别的混淆类别构建类别层次结构 | 第72-74页 |
5.3 层次化分类 | 第74-75页 |
5.4 实验及结果分析 | 第75-77页 |
5.5 结论 | 第77-78页 |
第六章 文档流派分类研究 | 第78-94页 |
6.1 引言 | 第78-81页 |
6.1.1 研究意义 | 第78-79页 |
6.1.2 当前研究状况 | 第79-81页 |
6.1.3 本章的研究内容 | 第81页 |
6.2 基于特征情感色彩的分类方法 | 第81-86页 |
6.2.1 文本特征 | 第81-82页 |
6.2.2 判断形容词的语义倾向 | 第82-83页 |
6.2.3 计算词汇的情感倾向权值 | 第83-85页 |
6.2.4 人工确定文本特征及其情感倾向权值 | 第85页 |
6.2.5 分类过程 | 第85-86页 |
6.3 基于语义模式的分类方法 | 第86-88页 |
6.3.1 语义模式 | 第86-87页 |
6.3.2 文档预处理 | 第87页 |
6.3.3 分类过程 | 第87-88页 |
6.4 信息内容安全管理系统 | 第88-92页 |
6.4.1 系统结构 | 第89-90页 |
6.4.2 热门话题的识别 | 第90页 |
6.4.3 倾向性分析 | 第90-91页 |
6.4.4 自动摘要 | 第91-92页 |
6.5 实验结果 | 第92-93页 |
6.6 结论 | 第93-94页 |
第七章 基于中图法的文本信息过滤研究 | 第94-110页 |
7.1 引言 | 第94-95页 |
7.2 用户兴趣模型 | 第95-98页 |
7.2.1 用户兴趣模型的表示 | 第95-96页 |
7.2.2 用户兴趣模型建立方法的分类 | 第96-97页 |
7.2.3 评价用户建模的基本标准 | 第97页 |
7.2.4 现有的用户模型构造方法 | 第97-98页 |
7.3 基于中图法的用户兴趣模型 | 第98-104页 |
7.3.1 中国图书馆分类法 | 第98-99页 |
7.3.2 中国分类主题词表 | 第99-100页 |
7.3.3 初始用户兴趣模型的构造 | 第100-101页 |
7.3.4 新信息的推送算法 | 第101-102页 |
7.3.5 用户兴趣模型的更新 | 第102-104页 |
7.4 基于中图法的科技文献过滤系统 | 第104-108页 |
7.4.1 体系结构 | 第104-105页 |
7.4.2 信息收集 | 第105-106页 |
7.4.3 用户兴趣模型的构建和更新 | 第106-108页 |
7.5 结论 | 第108-110页 |
第八章 总结与展望 | 第110-113页 |
8.1 总结 | 第110-111页 |
8.2 进一步的工作 | 第111-113页 |
参考文献 | 第113-120页 |
攻读博士学位期间参与的科研项目及主要成果 | 第120-122页 |
致谢 | 第122-123页 |
论文独创性声明 | 第123页 |
论文使用授权声明 | 第123页 |