频繁项集与高可用项集挖掘算法及其性能研究

摘要	第12-14页
ABSTRACT	第14-15页
第一章引言	第16-24页
1.1 项集：数据挖掘研究领域的焦点之一	第17-19页
1.2 频繁及高可用项集挖掘问题的研究现状	第19-22页
1.3 本论文主要内容与组织结构	第22-24页
第二章频繁项集挖掘问题	第24-40页
2.1 概述	第24-27页
2.1.1 问题形式化定义	第24-26页
2.1.2 搜索空间与方法	第26-27页
2.2 基础频繁项集挖掘算法介绍	第27-32页
2.2.1 经典的候选生成Apriori算法	第27-28页
2.2.2 以垂直视角处理数据库的Eclat算法	第28-29页
2.2.3 基于前缀树结构的FP-growth算法	第29-32页
2.3 性能测试的软硬件环境	第32-36页
2.3.1 数据库描述	第32-33页
2.3.2 参照算法介绍	第33-36页
2.3.3 其他软硬件设施	第36页
2.4 实验一：三种基础算法的性能测试	第36-40页
2.4.1 实验结果	第36-37页
2.4.2 性能评价	第37-40页
第三章 BFP-growth：一种快速的模式增长算法	第40-55页
3.1 经典模式增长算法的性能分析	第40-42页
3.1.1 影响FP-growth性能的三个因素	第40-41页
3.1.2 ICDM最佳算法：FPgrowth~*	第41-42页
3.2 批量模式增长算法：BFP-growth	第42-48页
3.2.1 性能提升的途径	第43-44页
3.2.2 核心步骤：两次前缀树遍历	第44-47页
3.2.3 算法伪代码	第47-48页
3.3 BFP-growth算法的性能分析	第48-51页
3.3.1 更少的遍历花费	第48-49页
3.3.2 FP-array技术应该集成在BFP-growth中吗	第49-50页
3.3.3 无修饰的前缀树结构	第50-51页
3.4 实验二：BFP-growth的性能测试及讨论	第51-54页
3.4.1 BFP-growth及FPgrowth~*与基础算法的对比	第51-52页
3.4.2 实验结果讨论	第52-54页
3.5 小结	第54-55页
第四章基于结点集合结构的NS算法	第55-68页
4.1 Eclat及FP-growth算法的优缺点	第55-57页
4.2 结点集合结构(Node-set)	第57-60页
4.2.1 条件结点	第57-58页
4.2.2 结点拓扑序号	第58-59页
4.2.3 使用结点集合结构表示前缀树	第59-60页
4.3 NS算法	第60-65页
4.3.1 映射前缀树到结点集合结构	第60-62页
4.3.2 从结点集合结构中挖掘频繁项集	第62-64页
4.3.3 一个例子	第64页
4.3.4 NS算法的原子操作	第64-65页
4.4 实验三：NS算法与其他快速挖掘算法的性能对比	第65-67页
4.4.1 实验结果	第65-66页
4.4.2 结果讨论：NS算法的性能优势	第66-67页
4.5 小结	第67-68页
第五章频繁项集挖掘算法的内存耗费	第68-71页
5.1 BFP-growth算法内存使用情况分析	第68页
5.2 NS算法内存使用情况分析	第68-70页
5.3 实验四：快速挖掘算法的内存耗费	第70-71页
第六章高可用项集挖掘问题	第71-77页
6.1 从频繁项集到高可用项集	第71-72页
6.2 问题的形式化定义	第72-73页
6.3 已有挖掘算法概述	第73-77页
第七章非候选生成的高可用项集挖掘算法	第77-95页
7.1 项集有用性列表结构	第77-82页
7.1.1 初始有用性列表	第78-79页
7.1.2 2-项集的有用性列表	第79-80页
7.1.3 k-项集有用性列表(k≥3)	第80-82页
7.2 HUI-Miner算法	第82-85页
7.2.1 剪枝策略	第82-84页
7.2.2 算法伪代码	第84-85页
7.3 HUI-Miner算法的实现细节	第85-87页
7.3.1 有用性列表表头	第85-86页
7.3.2 重新标注tid	第86页
7.3.3 交易权重有用性增加的顺序	第86-87页
7.4 实验五：HUI-Miner性能测试	第87-94页
7.4.1 实验设置	第87-88页
7.4.2 HUI-Miner及对比算法的运行时间	第88-90页
7.4.3 HUI-Miner及对比算法的内存耗费	第90-91页
7.4.4 项处理顺序对HUI-Miner性能的影响	第91-92页
7.4.5 可扩展性	第92页
7.4.6 实验结果讨论	第92-94页
7.5 小结	第94-95页
第八章从候选集合中快速识别高可用项集	第95-111页
8.1 先前算法的性能瓶颈	第95-96页
8.2 基本识别算法(BIA)	第96-99页
8.3 基于候选树的快速识别算法(FIA)	第99-102页
8.3.1 候选树结构	第99-100页
8.3.2 快速识别算法	第100-102页
8.4 算法分析：BIA与FIA	第102-104页
8.5 实验六：BIA与FIA的性能对比	第104-107页
8.5.1 高可用项集识别时间	第105页
8.5.2 候选项集生成时间	第105页
8.5.3 内存耗费	第105-106页
8.5.4 实验结果分析	第106-107页
8.6 实验七：FIA-UP-Growth+和HUI-Miner的性能对比	第107-110页
8.6.1 运行时间&内存耗费	第108-109页
8.6.2 实验结果分析	第109-110页
8.7 小结	第110-111页
第九章总结与展望	第111-113页
参考文献	第113-126页
攻博期间研究经历和科研成果	第126-127页
致谢	第127页