海量数据约简与分类研究
独创性声明 | 第1页 |
关于论文使用授权的说明 | 第4-5页 |
摘 要 | 第5-7页 |
ABSTRACT | 第7-12页 |
1 KDD 中的机器学习 | 第12-33页 |
·机器学习的发展 | 第12-14页 |
·数据库中的机器发现 | 第14-15页 |
·分类 | 第15-22页 |
·贝叶斯分类 | 第15-16页 |
·分治法 | 第16-17页 |
·覆盖算法 | 第17-18页 |
·投票算法 | 第18-20页 |
·Bagging 算法 | 第19页 |
·Boosting 算法 | 第19-20页 |
·偏置与归纳 | 第20-22页 |
·聚类 | 第22-24页 |
·统计学习理论 | 第24-30页 |
·机器学习的本质 | 第24-26页 |
·函数集的学习性能与VC 维 | 第26-27页 |
·推广性的界 | 第27页 |
·支持向量机 | 第27-29页 |
·基于邻域的空间划分方法 | 第29-30页 |
·数据约简 | 第30-32页 |
·本文的组织 | 第32-33页 |
2 基于格的学习与约简 | 第33-75页 |
·格的基础理论 | 第33-35页 |
·超元组和域格 | 第35-40页 |
·相关工作 | 第36-39页 |
·保存分类结构的元组合并 | 第39-40页 |
·数据约简与版本空间搜索 | 第40-42页 |
·密度最大的合并超元组 | 第42-46页 |
·基于格的高效渐增式数据约简 | 第46-59页 |
·超元组的调整 | 第51-53页 |
·渐增式约简算法 | 第53-55页 |
·算法分析 | 第55-59页 |
·典型实例的选择与约简数据的生成 | 第59-62页 |
·利用超元组的近邻分类 | 第62-63页 |
·试验结果 | 第63-73页 |
·试验1——分类精度 | 第63-64页 |
·试验2——参数选取与收敛性能 | 第64-70页 |
·试验3——大规模数据下的性能 | 第70页 |
·试验4——聚类 | 第70-73页 |
·讨论 | 第73-75页 |
3 高维数据中高效的相似性计算方法 | 第75-86页 |
·简介 | 第75页 |
·定义 | 第75-78页 |
·算法 | 第78-82页 |
·基于部分特征的k-NN 算法 | 第78-79页 |
·基于投影的k-NN 算法 | 第79-82页 |
·实验及结果 | 第82-85页 |
·小结 | 第85-86页 |
4 决策树的画法及可视化 | 第86-95页 |
·概述 | 第86-87页 |
·定义及算子 | 第87-90页 |
·树的画法 | 第90-91页 |
·算法讨论 | 第91-93页 |
·树的可视化要点 | 第93-94页 |
·小结 | 第94-95页 |
5 超范例与专家知识的融合 | 第95-109页 |
·问题的提出与背景 | 第95-98页 |
·问题分析与范例表示 | 第98-99页 |
·相似性度量 | 第99-100页 |
·索引与检索 | 第100-102页 |
·基于框架的修正 | 第102-106页 |
·知识表示与框架系统 | 第102-103页 |
·框架模型的设计 | 第103-104页 |
·框架模型的实施技术 | 第104-106页 |
·小结 | 第106-109页 |
6 多策略通用数据采掘平台MSMiner | 第109-123页 |
·引言 | 第109页 |
·海量数据的采掘平台需要具备什么 | 第109-111页 |
·数据仓库 | 第111-113页 |
·数据仓库建模及OLAP 的实现 | 第112-113页 |
·数据抽取及更新 | 第113页 |
·数据采掘集成工具 | 第113-118页 |
·面向对象的数据采掘任务模型 | 第114-115页 |
·面向对象任务模型处理机制 | 第115-116页 |
·数据采掘语言DML | 第116页 |
·可扩展的算法库 | 第116-117页 |
·数据采掘任务向导 | 第117页 |
·数据采掘结果的解释和评价 | 第117-118页 |
·元数据 | 第118-119页 |
·应用举例 | 第119页 |
·小结 | 第119-123页 |
7 结束语 | 第123-126页 |
·本文主要贡献与创新 | 第123-124页 |
·下一步的研究工作 | 第124-126页 |
参考文献 | 第126-135页 |
作者简历 | 第135-137页 |
致谢 | 第137页 |