主题爬虫关键技术研究

摘要	第1-6页
Abstract	第6-10页
第1章绪论	第10-14页
·研究背景及意义	第10页
·国内外研究现状	第10-12页
·本文内容和组织结构	第12-14页
第2章爬虫关键技术研究	第14-30页
·爬虫的爬行策略	第14-17页
·宏观上的爬行策略	第15页
·微观上的爬行策略	第15-17页
·网页的获取	第17-21页
·HTTP 协议	第17-18页
·HTTP 报文件结构	第18-19页
·HTTP 超文本传输协议请求报文的一些方法	第19-20页
·HTML 语法分析	第20-21页
·主题相关度技术	第21-29页
·网页中提取信息资源	第21-25页
·中文分词算法	第25-27页
·分词中的难题	第27-28页
·3GWS 分词系统	第28-29页
·本章小结	第29-30页
第3章搜索策略算法研究	第30-44页
·主题爬虫搜索策略的研究	第30-33页
·基于内容的搜索策略	第31-32页
·基于链接的搜索策略	第32-33页
·PageRank 算法	第33-43页
·PageRank 值的计算	第36-40页
·PageRank 算法的优缺点	第40页
·PageRank 算法的改进	第40-43页
·本章小结	第43-44页
第4章主题相关度算法研究	第44-59页
·基于 VSM 的相似度计算方法	第44-49页
·相关度计算的理论模型	第44-45页
·权重的计算方法	第45-47页
·基于 VSM 的相似度计算	第47-49页
·相关度算法的改进	第49-51页
·语义加强的权重计算方法	第49-50页
·分阶段融合的语义相似度计算方法	第50-51页
·URL 规模较大时的消重	第51-57页
·重复网页特点	第52-53页
·重复网页分类	第53-54页
·URL 消重算法改进	第54-57页
·本章小结	第57-59页
第5章实验结果分析	第59-64页
·系统平台	第59页
·数据库的实现	第59页
·系统的界面以及操作流程	第59-61页
·实验数据分析	第61-63页
·改进的搜索策略的实验结果分析	第61-62页
·改进的相关度计算的实验结果分析	第62-63页
·本章小结	第63-64页
结论	第64-66页
参考文献	第66-70页
致谢	第70页