摘要 | 第4-5页 |
Abstract | 第5页 |
第一章 绪论 | 第8-14页 |
1.1 研究背景 | 第8-9页 |
1.2 国内外的研究现状 | 第9-11页 |
1.2.1 国外发展现状 | 第9-11页 |
1.2.2 国内发展现状 | 第11页 |
1.3 Web 数据挖掘的过程 | 第11-13页 |
1.4 本文的组织结构及创新点 | 第13-14页 |
第二章 Web 数据挖掘简介 | 第14-31页 |
2.1 Web 数据挖掘的起源和定义 | 第14-15页 |
2.1.1 Web 数据挖掘的起源 | 第14页 |
2.1.2 Web 数据挖掘的定义 | 第14-15页 |
2.2 Web 数据挖掘的分类 | 第15-17页 |
2.2.1 Web 内容挖掘 | 第15-16页 |
2.2.2 Web 结构挖掘 | 第16页 |
2.2.3 Web 使用挖掘 | 第16-17页 |
2.3 Web 数据挖掘的特点和难点 | 第17-22页 |
2.3.1 Web 数据挖掘的特点 | 第18-19页 |
2.3.2 Web 数据挖掘的难点 | 第19-22页 |
2.4 Web 数据挖掘在搜索引擎中的应用 | 第22-30页 |
2.4.1 搜索引擎介绍 | 第22-24页 |
2.4.2 搜索引擎中的相关度排序 | 第24-26页 |
2.4.3 Web 数据挖掘的应用 | 第26-30页 |
2.5 Web 数据挖掘的发展方向 | 第30-31页 |
第三章 Web 结构挖掘中的HITS 算法及其问题分析 | 第31-46页 |
3.1 网页搜索算法背景及发展历史 | 第31-34页 |
3.1.1 引言 | 第31-32页 |
3.1.2 网页搜索算法的发展 | 第32-34页 |
3.2 Web 链接结构 | 第34-36页 |
3.2.1 Web 链接图 | 第35页 |
3.2.2 Web 链接结构的自组织性 | 第35-36页 |
3.2.3 链接分析 | 第36页 |
3.3 H ITS 算法的原理 | 第36-38页 |
3.4 其他传统的Web 结构挖掘算法的分析 | 第38-42页 |
3.4.1 PageRank 算法 | 第38-39页 |
3.4.2 Hub 平均算法 | 第39页 |
3.4.3 阈值算法 | 第39-40页 |
3.4.4 ARC 算法 | 第40页 |
3.4.5 PHITS 算法 | 第40-41页 |
3.4.6 SALSA 算法 | 第41页 |
3.4.7 贝叶斯算法 | 第41-42页 |
3.4.8 Average 算法和Sim 算法 | 第42页 |
3.5 HITS 算法的问题与分析 | 第42-46页 |
第四章 改进的HITS 算法——G-HITS 算法 | 第46-52页 |
4.1 改进的总体思路 | 第46页 |
4.2 矢量空间模型 | 第46-50页 |
4.2.1 文档空间 | 第46-47页 |
4.2.2 标引词空间 | 第47-48页 |
4.2.3 项权重 | 第48-49页 |
4.2.4 文档矢量与查询矢量的匹配 | 第49-50页 |
4.3 G-HITS 算法描述 | 第50-52页 |
4.3.1 Web 节点和查询主题的矢量表示 | 第50-51页 |
4.3.2 Web 节点与查询主题的相似度计算 | 第51页 |
4.3.3 结合内容相关性分析的G-HITS 算法 | 第51-52页 |
第五章 实验及性能分析 | 第52-58页 |
5.1 算法实现 | 第52-56页 |
5.1.1 系统设计 | 第52-53页 |
5.1.2 开发环境 | 第53页 |
5.1.3 系统实现 | 第53-56页 |
5.2 实验结果及讨论 | 第56-58页 |
5.2.1 实验结果 | 第56-57页 |
5.2.2 讨论 | 第57-58页 |
第六章 总结与展望 | 第58-60页 |
参考文献 | 第60-64页 |
致谢 | 第64-65页 |
攻读硕士期间发表论文 | 第65页 |
攻读硕士期间参与科研项目 | 第65页 |