摘要 | 第1-4页 |
ABSTRACT | 第4-7页 |
第一章 绪论 | 第7-10页 |
·引言 | 第7页 |
·研究背景 | 第7-8页 |
·Web挖掘和链接分析 | 第7-8页 |
·Web Community相关研究 | 第8页 |
·本文的工作和组织结构 | 第8-10页 |
第二章 相关研究综述 | 第10-19页 |
·数据挖掘 | 第10-11页 |
·数据挖掘定义 | 第10页 |
·WEB挖掘 | 第10-11页 |
·WEB COMMUNITY的定义 | 第11-12页 |
·Web Community的泛化定义 | 第11-12页 |
·基于图论的定义 | 第12页 |
·现有WEB COMMUNITY识别技术 | 第12-18页 |
·基于链接的分析算法 | 第12-17页 |
·PageRank算法 | 第13-14页 |
·HITS算法 | 第14-16页 |
·PageRank算法和HITS算法的进一步探讨 | 第16-17页 |
·Maximum Flow Communities | 第17-18页 |
·最大流&最小割 | 第17页 |
·基于最大流&最小割的web community识别算法 | 第17-18页 |
·基于网页内容的主题判别 | 第18页 |
·本章小结 | 第18-19页 |
第三章 网站主题计算 | 第19-37页 |
·网站主题确定在行业网站分类中的意义 | 第19-20页 |
·最能代表网站主题网页的确定算法 | 第20-35页 |
·通过简约网站拓扑结构获取最能代表网站主题网页算法 | 第20-25页 |
·通过计算链接度来获取最能代表网站主题网页算法 | 第25-27页 |
·两种算法的比较 | 第27-35页 |
·网站主题确定算法 | 第35-36页 |
·本章小结 | 第36-37页 |
第四章 关键词模型 | 第37-44页 |
·建立“种子”关键词库 | 第37-38页 |
·适合采用的关键词模型 | 第38-41页 |
·布尔模型 | 第38页 |
·向量空间模型 | 第38-39页 |
·概率模型 | 第39-41页 |
·关键词依赖性概念 | 第41-42页 |
·关键词权重的设定 | 第42-43页 |
·出现频率和权重的关系 | 第42-43页 |
·本章小结 | 第43-44页 |
第五章 专业网站有用链接分布特点及链接相关度分析 | 第44-53页 |
·专业网站有用链接分布情况 | 第44-50页 |
·实验数据分析 | 第47-50页 |
·链接相关度分析 | 第50-52页 |
·基于链接所处位置的链接相关度分析 | 第50-51页 |
·基于链接指向目标的相关度分析 | 第51页 |
·基于链接标签信息的链接相关度计算 | 第51-52页 |
·链接相关度的构建 | 第52页 |
·本章小节 | 第52-53页 |
第六章 系统的设计与实现 | 第53-64页 |
·系统设计目标 | 第53-54页 |
·系统架构 | 第54-55页 |
·专业网络爬虫 | 第54-55页 |
·网站、页面逻辑处理模块 | 第55页 |
·行业网站分类构建模块 | 第55页 |
·系统实现描述 | 第55-59页 |
·系统测试分析 | 第59-64页 |
·分析过程 | 第59-60页 |
·相关统计数据 | 第60-61页 |
·数据特征分析 | 第61-62页 |
·系统运行结果对比 | 第62-64页 |
第七章 总结与展望 | 第64-66页 |
·总结 | 第64页 |
·展望 | 第64-66页 |
参考文献 | 第66-69页 |
致谢 | 第69页 |