基于频繁路径特征的XML文档结构聚类算法研究与实现

提要	第1-7页
第1章绪论	第7-11页
·XML与数据挖掘	第7-8页
·XML文档结构聚类	第8-9页
·本文工作	第9-11页
第2章结构数据抽取	第11-30页
·常见路径序列挖掘	第11-21页
·术语定义	第11-13页
·经典的Apriori算法	第13-16页
·通用的GSP算法	第16-18页
·快速PrefixSpan算法	第18-21页
·聚类	第21-30页
·数据表征	第23-24页
·常用聚类策略	第24-25页
·层次聚类方法	第25-26页
·基于划分的聚类方法	第26-30页
第3章 XML数据处理	第30-35页
·XML文档的结构定义	第30-32页
·新型XML数据	第32-33页
·XML数据信息抽取	第33-35页
第4章 PBClustering算法	第35-44页
·XML文档预处理	第35-36页
·挖掘文档间频繁路径	第36-39页
·术语定义	第36-37页
·XML频繁路径挖掘过程	第37-39页
·XML文档聚类	第39-40页
·算法改进	第40-42页
·原算法存在的问题	第40页
·文档相似度计算	第40页
·路径长度权重	第40-41页
·提高算法的可伸缩性	第41-42页
·算法示例	第42-44页
第5章对比实验	第44-46页
·文档间相似度计算	第44页
·路径加权	第44-45页
·适合大数据集的高效算法	第45-46页
第6章结论与展望	第46-47页
参考文献	第47-49页
致谢	第49-50页
摘要	第50-52页
Abstract	第52-54页