中文摘要 | 第1-10页 |
英文摘要 | 第10-12页 |
缩略词和符号说明 | 第12-13页 |
插图和附表索引 | 第13-15页 |
第一章 绪论 | 第15-35页 |
§1.1 知识发现的研究背景及定义 | 第15-18页 |
1.1.1 知识发现的研究背景 | 第15-16页 |
1.1.2 知识发现的定义 | 第16-18页 |
§1.2 知识发现的处理过程 | 第18-24页 |
1.2.1 Fayyad给出的知识发现过程模型 | 第18-20页 |
1.2.2 其它的知识发现过程模型 | 第20-21页 |
1.2.3 基于数据抽取器的知识发现处理模型 | 第21-24页 |
§1.3 知识发现过程的研究现状与发展趋势 | 第24-31页 |
1.3.1 知识发现过程的研究概况 | 第24-27页 |
1.3.2 知识发现与相关学科的区别与联系 | 第27页 |
1.3.3 知识发现过程的应用与发展 | 第27-30页 |
1.3.4 知识发现过程研究所面临的挑战 | 第30-31页 |
§1.4 本论文研究的主要内容和意义 | 第31-35页 |
第二章 分类算法及评价方法 | 第35-56页 |
§2.1 分类的定义 | 第35-36页 |
§2.2 决策树 | 第36-45页 |
2.2.1 决策树构造算法 | 第36-38页 |
2.2.1.1 决策树的基本概念 | 第36-37页 |
2.2.1.2 决策树的构造算法 | 第37-38页 |
2.2.2 分枝准则 | 第38-40页 |
2.2.3 剪枝策略 | 第40-43页 |
2.2.4 缺值问题 | 第43-44页 |
2.2.5 决策树的特性 | 第44-45页 |
§2.3 判别函数 | 第45-49页 |
2.3.1 简单贝叶斯分类器 | 第46-47页 |
2.3.2 线性判别分类器 | 第47-49页 |
§2.4 近邻法 | 第49-50页 |
§2.5 分类方法的评价方法 | 第50-54页 |
2.5.1 分类数据挖掘算法的评价指标 | 第51-53页 |
2.5.1.1 错误率 | 第51-53页 |
2.5.1.2 其它指标 | 第53页 |
2.5.2 几种基本分类算法的精度比较 | 第53-54页 |
§2.6 本章小结 | 第54-56页 |
第三章 数据预处理——属性选择 | 第56-75页 |
§3.1 引言 | 第56-60页 |
3.1.1 属性选择的定义 | 第58-59页 |
3.1.2 属性的相关性 | 第59-60页 |
§3.2 属性选择方法 | 第60-66页 |
3.2.1 属性选择的一般程序 | 第60-62页 |
3.2.2 过滤方法 | 第62-64页 |
3.2.3 打包方法 | 第64页 |
3.2.4 两者结合的属性选择方法 | 第64-66页 |
§3.3 MBFS算法 | 第66-71页 |
3.3.1 算法的理论基础 | 第66-69页 |
3.3.1.1 交叉熵的定义 | 第66-67页 |
3.3.1.2 Markov Blanket准则 | 第67-69页 |
3.3.2 MBFS算法 | 第69-71页 |
§3.4 实验验证与结果 | 第71-73页 |
§3.5 本章小结 | 第73-75页 |
第四章 数据抽取——SQL数据抽取器 | 第75-92页 |
§4.1 引言 | 第75-76页 |
§4.2 数据挖掘算法与数据库管理系统接口设计 | 第76-79页 |
§4.3 数据抽取器的设计 | 第79-82页 |
§4.4 SQL-C4.5决策树数据挖掘算法 | 第82-88页 |
4.4.1 C4.5决策树算法 | 第83页 |
4.4.2 choosebest()函数 | 第83-85页 |
4.4.3 stopping criterion()函数 | 第85-86页 |
4.4.4 postprune()函数 | 第86页 |
4.4.5 SQL_C4.5决策树算法 | 第86-88页 |
§4.5 SQL-简单贝叶斯抽取器 | 第88-90页 |
§4.6 通用的基于抽取器的决策树数据挖掘算法 | 第90页 |
§4.7 本章小结 | 第90-92页 |
第五章 数据挖掘——多变量决策树 | 第92-107页 |
§5.1 多变量决策树的生成方法 | 第92-97页 |
5.1.1 多变量决策树 | 第92-93页 |
5.1.2 局部最优方法 | 第93-95页 |
5.1.3 构造属性法 | 第95-96页 |
5.1.4 斜树算法 | 第96-97页 |
§5.2 LICT算法 | 第97-102页 |
§5.3 实验结果和分析 | 第102-105页 |
5.3.1 实验方法和结果分析 | 第102-104页 |
5.3.2 错误率的Bias-Variance分析 | 第104-105页 |
5.3.3 学习时间比较 | 第105页 |
§5.4 本章小结 | 第105-107页 |
第六章 数据挖掘——组合近邻分类器 | 第107-124页 |
§6.1 组合模型 | 第107-111页 |
6.1.1 组合分类器方法 | 第107-108页 |
6.1.2 Bagging法 | 第108-109页 |
6.1.3 Boosting方法 | 第109-111页 |
6.1.4 错误校正输出代码 | 第111页 |
§6.2 混合系统 | 第111-113页 |
§6.3 近邻分类器 | 第113-114页 |
§6.4 组合近邻分类算法MNN | 第114-118页 |
6.4.1 MNN算法 | 第115-117页 |
6.4.2 参数的选择 | 第117-118页 |
§6.5 实验方法和结果分析 | 第118-123页 |
6.5.1 实验方法 | 第118页 |
6.5.2 精度 | 第118-119页 |
6.5.3 计算复杂度 | 第119-120页 |
6.5.4 不相关属性的健壮性 | 第120-121页 |
6.5.5 错误率的Bias-Variance分析 | 第121-123页 |
§6.6 本章小结 | 第123-124页 |
第七章 知识发现过程应用——一个原型系统设计 | 第124-134页 |
§7.1 KDD原型系统设计 | 第124-127页 |
7.1.1 MKDS系统配置 | 第124-125页 |
7.1.2 客户端交互控制系统 | 第125-126页 |
7.1.3 广义模型服务器 | 第126页 |
7.1.4 客户服务器结构 | 第126-127页 |
§7.2 MKDS系统知识发现过程 | 第127-129页 |
§7.3 运行过程与结果分析 | 第129-133页 |
§7.4 本章小结 | 第133-134页 |
第八章 结论与展望 | 第134-138页 |
§8.1 研究结论 | 第134-135页 |
§8.2 研究展望 | 第135-138页 |
致谢 | 第138-139页 |
作者在攻读博士学位期间发表的论文 | 第139-140页 |
参考文献 | 第140-150页 |
附录A 实验数据 | 第150-151页 |
附录B Markov Blanket性质证明 | 第151页 |