| 中文摘要 | 第1-5页 |
| 英文摘要 | 第5-8页 |
| 1 绪论 | 第8-13页 |
| 1.1 问题的提出及研究意义 | 第8-11页 |
| 1.1.1 问题的提出 | 第8-9页 |
| 1.1.2 研究的意义及国内外现状 | 第9-11页 |
| 1.2 本文研究内容及目的 | 第11-13页 |
| 2 知识发现基本过程及分类 | 第13-22页 |
| 2.1 知识发现的概念及过程 | 第13-15页 |
| 2.2 知识发现技术在Web挖掘中的应用 | 第15-19页 |
| 2.3 知识发现任务的主要分类 | 第19-22页 |
| 3 基于检索的中文文本挖掘通用处理流程设计 | 第22-36页 |
| 3.1 处理流程整体规划 | 第22-23页 |
| 3.2 文档集的预处理 | 第23-26页 |
| 3.2.1 倒排文件 | 第24-26页 |
| 3.2.2 后缀树与后缀数组 | 第26页 |
| 3.3 文本特征值的建立和缩减 | 第26-33页 |
| 3.3.1 建立和缩减的步骤 | 第26-30页 |
| 3.3.2 文本特征的处理 | 第30-33页 |
| 3.4 学习与知识模式的提取 | 第33页 |
| 3.5 模型质量的评价 | 第33-36页 |
| 4 提出常用点和重、难点的自动处理方法 | 第36-49页 |
| 4.1 中文词性自动标注规则的挖掘算法的研究与应用 | 第36-41页 |
| 4.1.1 问题的描述 | 第37-38页 |
| 4.1.2 挖掘算法 | 第38-41页 |
| 4.2 中文文本自动分析研究 | 第41-44页 |
| 4.2.1 名字提取 | 第42-43页 |
| 4.2.2 术语提取 | 第43页 |
| 4.2.3 缩写词识别器 | 第43-44页 |
| 4.2.4 其他提取器 | 第44页 |
| 4.3 文本特征的提取 | 第44-49页 |
| 4.3.1 一般特征项的提取 | 第44-45页 |
| 4.3.2 专有特征项的提取 | 第45-49页 |
| 5 基于检索的文本挖掘系统的设计 | 第49-64页 |
| 5.1 基于检索的文本挖掘系统总体设计 | 第49-50页 |
| 5.2 模式库、算法库管理设计 | 第50-52页 |
| 5.2.1 文本挖掘模式的控制模块 | 第50-51页 |
| 5.2.2 文本挖掘算法的控制模块 | 第51-52页 |
| 5.3 系统可扩展性的实现 | 第52-54页 |
| 5.4 文本挖掘任务规划 | 第54-55页 |
| 5.5 提出文本立方体概念 | 第55-56页 |
| 5.6 系统框图设计描述 | 第56-59页 |
| 5.7 中文简历挖掘系统 | 第59-64页 |
| 6 结束语 | 第64-65页 |
| 致谢 | 第65-66页 |
| 参考文献 | 第66-68页 |
| 附录 | 第68-69页 |
| 1、作者在攻读硕士学位期间发表的论文 | 第68页 |
| 2、作者在攻读硕士学位期间参加的课题研究 | 第68-69页 |