网页抓取策略研究

摘要	第1-6页
Abstract	第6-11页
第1章绪论	第11-18页
·论文的研究背景和意义	第11-14页
·搜索引擎技术	第11-13页
·网络爬虫	第13-14页
·国内外研究现状	第14-15页
·论文的主要工作	第15-16页
·论文的组织结构	第16-18页
第2章网络爬虫关键技术研究	第18-30页
·网络爬虫体系结构	第18-20页
·URL 调度	第20-22页
·URL 调度策略	第20-21页
·礼貌性要求	第21-22页
·DNS 解析	第22-25页
·域名和IP 对应问题	第22-23页
·定制DNS	第23-25页
·网页抓取	第25-27页
·多线程并行抓取	第25-26页
·单线程异步抓取	第26页
·爬虫禁止协议	第26-27页
·网页分析	第27-28页
·URL 判重	第28-29页
·减少URL 存储空间	第28页
·减少URL 查找时间	第28-29页
·本章小结	第29-30页
第3章网页重要度评定标准	第30-42页
·基于URL 规则的评定标准	第31-32页
·基于链接分析的评定标准	第32-39页
·链接分析技术概述	第33-35页
·基于反向链接数的评定标准	第35-36页
·基于PageRank 的评定标准	第36-39页
·基于主题内容的评定标准	第39-40页
·主题爬虫	第39页
·主题相关性判定标准	第39-40页
·综合评定标准	第40-41页
·本章小结	第41-42页
第4章网页抓取策略研究	第42-53页
·宽度优先抓取策略	第42-43页
·深度优先抓取策略	第43-44页
·基于链接分析的抓取策略	第44-45页
·周期性网页重要度计算	第44-45页
·批量网页重要度计算	第45页
·大站点优先抓取策略	第45-46页
·基于历史信息反馈的抓取策略	第46页
·综合权重抓取策略	第46-51页
·本章小结	第51-53页
第5章实验设计和结果分析	第53-63页
·实验概述	第53-54页
·实验平台设计	第54-57页
·WebCrawler 介绍	第54-55页
·WebCrawler 主要类及功能	第55-56页
·WebCrawler 抓取算法	第56-57页
·实验数据集的获取	第57-58页
·评定指标	第58-59页
·实验和结果分析	第59-62页
·本章小结	第62-63页
结论	第63-65页
参考文献	第65-69页
致谢	第69页