中文摘要 | 第1-5页 |
英文摘要 | 第5-8页 |
1 绪论 | 第8-13页 |
1.1 问题的提出及研究意义 | 第8-11页 |
1.1.1 问题的提出 | 第8-9页 |
1.1.2 研究的意义及国内外现状 | 第9-11页 |
1.2 本文研究内容及目的 | 第11-13页 |
2 知识发现基本过程及分类 | 第13-22页 |
2.1 知识发现的概念及过程 | 第13-15页 |
2.2 知识发现技术在Web挖掘中的应用 | 第15-19页 |
2.3 知识发现任务的主要分类 | 第19-22页 |
3 基于检索的中文文本挖掘通用处理流程设计 | 第22-36页 |
3.1 处理流程整体规划 | 第22-23页 |
3.2 文档集的预处理 | 第23-26页 |
3.2.1 倒排文件 | 第24-26页 |
3.2.2 后缀树与后缀数组 | 第26页 |
3.3 文本特征值的建立和缩减 | 第26-33页 |
3.3.1 建立和缩减的步骤 | 第26-30页 |
3.3.2 文本特征的处理 | 第30-33页 |
3.4 学习与知识模式的提取 | 第33页 |
3.5 模型质量的评价 | 第33-36页 |
4 提出常用点和重、难点的自动处理方法 | 第36-49页 |
4.1 中文词性自动标注规则的挖掘算法的研究与应用 | 第36-41页 |
4.1.1 问题的描述 | 第37-38页 |
4.1.2 挖掘算法 | 第38-41页 |
4.2 中文文本自动分析研究 | 第41-44页 |
4.2.1 名字提取 | 第42-43页 |
4.2.2 术语提取 | 第43页 |
4.2.3 缩写词识别器 | 第43-44页 |
4.2.4 其他提取器 | 第44页 |
4.3 文本特征的提取 | 第44-49页 |
4.3.1 一般特征项的提取 | 第44-45页 |
4.3.2 专有特征项的提取 | 第45-49页 |
5 基于检索的文本挖掘系统的设计 | 第49-64页 |
5.1 基于检索的文本挖掘系统总体设计 | 第49-50页 |
5.2 模式库、算法库管理设计 | 第50-52页 |
5.2.1 文本挖掘模式的控制模块 | 第50-51页 |
5.2.2 文本挖掘算法的控制模块 | 第51-52页 |
5.3 系统可扩展性的实现 | 第52-54页 |
5.4 文本挖掘任务规划 | 第54-55页 |
5.5 提出文本立方体概念 | 第55-56页 |
5.6 系统框图设计描述 | 第56-59页 |
5.7 中文简历挖掘系统 | 第59-64页 |
6 结束语 | 第64-65页 |
致谢 | 第65-66页 |
参考文献 | 第66-68页 |
附录 | 第68-69页 |
1、作者在攻读硕士学位期间发表的论文 | 第68页 |
2、作者在攻读硕士学位期间参加的课题研究 | 第68-69页 |