首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

网页抓取策略研究

摘要第1-6页
Abstract第6-11页
第1章 绪论第11-18页
   ·论文的研究背景和意义第11-14页
     ·搜索引擎技术第11-13页
     ·网络爬虫第13-14页
   ·国内外研究现状第14-15页
   ·论文的主要工作第15-16页
   ·论文的组织结构第16-18页
第2章 网络爬虫关键技术研究第18-30页
   ·网络爬虫体系结构第18-20页
   ·URL 调度第20-22页
     ·URL 调度策略第20-21页
     ·礼貌性要求第21-22页
   ·DNS 解析第22-25页
     ·域名和IP 对应问题第22-23页
     ·定制DNS第23-25页
   ·网页抓取第25-27页
     ·多线程并行抓取第25-26页
     ·单线程异步抓取第26页
     ·爬虫禁止协议第26-27页
   ·网页分析第27-28页
   ·URL 判重第28-29页
     ·减少URL 存储空间第28页
     ·减少URL 查找时间第28-29页
   ·本章小结第29-30页
第3章 网页重要度评定标准第30-42页
   ·基于URL 规则的评定标准第31-32页
   ·基于链接分析的评定标准第32-39页
     ·链接分析技术概述第33-35页
     ·基于反向链接数的评定标准第35-36页
     ·基于PageRank 的评定标准第36-39页
   ·基于主题内容的评定标准第39-40页
     ·主题爬虫第39页
     ·主题相关性判定标准第39-40页
   ·综合评定标准第40-41页
   ·本章小结第41-42页
第4章 网页抓取策略研究第42-53页
   ·宽度优先抓取策略第42-43页
   ·深度优先抓取策略第43-44页
   ·基于链接分析的抓取策略第44-45页
     ·周期性网页重要度计算第44-45页
     ·批量网页重要度计算第45页
   ·大站点优先抓取策略第45-46页
   ·基于历史信息反馈的抓取策略第46页
   ·综合权重抓取策略第46-51页
   ·本章小结第51-53页
第5章 实验设计和结果分析第53-63页
   ·实验概述第53-54页
   ·实验平台设计第54-57页
     ·WebCrawler 介绍第54-55页
     ·WebCrawler 主要类及功能第55-56页
     ·WebCrawler 抓取算法第56-57页
   ·实验数据集的获取第57-58页
   ·评定指标第58-59页
   ·实验和结果分析第59-62页
   ·本章小结第62-63页
结论第63-65页
参考文献第65-69页
致谢第69页

论文共69页,点击 下载论文
上一篇:ATN中协商机制的研究
下一篇:基于人工免疫算法的Web文本挖掘研究