行业网站分类方法研究与应用

摘要	第1-4页
ABSTRACT	第4-7页
第一章绪论	第7-10页
·引言	第7页
·研究背景	第7-8页
·Web挖掘和链接分析	第7-8页
·Web Community相关研究	第8页
·本文的工作和组织结构	第8-10页
第二章相关研究综述	第10-19页
·数据挖掘	第10-11页
·数据挖掘定义	第10页
·WEB挖掘	第10-11页
·WEB COMMUNITY的定义	第11-12页
·Web Community的泛化定义	第11-12页
·基于图论的定义	第12页
·现有WEB COMMUNITY识别技术	第12-18页
·基于链接的分析算法	第12-17页
·PageRank算法	第13-14页
·HITS算法	第14-16页
·PageRank算法和HITS算法的进一步探讨	第16-17页
·Maximum Flow Communities	第17-18页
·最大流&最小割	第17页
·基于最大流&最小割的web community识别算法	第17-18页
·基于网页内容的主题判别	第18页
·本章小结	第18-19页
第三章网站主题计算	第19-37页
·网站主题确定在行业网站分类中的意义	第19-20页
·最能代表网站主题网页的确定算法	第20-35页
·通过简约网站拓扑结构获取最能代表网站主题网页算法	第20-25页
·通过计算链接度来获取最能代表网站主题网页算法	第25-27页
·两种算法的比较	第27-35页
·网站主题确定算法	第35-36页
·本章小结	第36-37页
第四章关键词模型	第37-44页
·建立“种子”关键词库	第37-38页
·适合采用的关键词模型	第38-41页
·布尔模型	第38页
·向量空间模型	第38-39页
·概率模型	第39-41页
·关键词依赖性概念	第41-42页
·关键词权重的设定	第42-43页
·出现频率和权重的关系	第42-43页
·本章小结	第43-44页
第五章专业网站有用链接分布特点及链接相关度分析	第44-53页
·专业网站有用链接分布情况	第44-50页
·实验数据分析	第47-50页
·链接相关度分析	第50-52页
·基于链接所处位置的链接相关度分析	第50-51页
·基于链接指向目标的相关度分析	第51页
·基于链接标签信息的链接相关度计算	第51-52页
·链接相关度的构建	第52页
·本章小节	第52-53页
第六章系统的设计与实现	第53-64页
·系统设计目标	第53-54页
·系统架构	第54-55页
·专业网络爬虫	第54-55页
·网站、页面逻辑处理模块	第55页
·行业网站分类构建模块	第55页
·系统实现描述	第55-59页
·系统测试分析	第59-64页
·分析过程	第59-60页
·相关统计数据	第60-61页
·数据特征分析	第61-62页
·系统运行结果对比	第62-64页
第七章总结与展望	第64-66页
·总结	第64页
·展望	第64-66页
参考文献	第66-69页
致谢	第69页