首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

实时垂直搜索引擎的爬虫技术研究

摘要第1-5页
Abstract第5-8页
1 绪论第8-12页
   ·课题背景及意义第8-9页
   ·国内外研究现状第9-10页
   ·论文主要研究内容第10页
   ·论文组织结构第10-12页
2 相关技术的研究现状第12-24页
   ·传统网络爬虫的相关研究第12-13页
     ·基本原理第12页
     ·工作流程第12-13页
     ·网页抓取策略第13页
     ·传统网络爬虫的不足第13页
   ·Ajax爬虫的相关研究第13-17页
     ·Ajax技术相关介绍第13-16页
     ·动态脚本解析第16页
     ·状态转换图第16-17页
   ·实时搜索调度的相关研究第17-23页
     ·网页和对象排序第18-19页
     ·页面变化规律第19-20页
     ·数据新鲜程度第20-23页
   ·本章小结第23-24页
3 基于动态转换图的网页抓取第24-35页
   ·动态脚本解析第24-25页
   ·动态状态转换图模型第25-30页
     ·动态状态转换图定义第25-27页
     ·页面相似性判定第27页
     ·基于动态状态转换图的爬行算法第27-29页
     ·爬行算法的主要问题第29-30页
   ·算法改进第30-34页
     ·Web页面区域划分第30-32页
     ·基于Xpath特征的有效元素的检测第32-34页
   ·本章小结第34-35页
4 基于时间敏感的实时调度策略第35-48页
   ·数据抓取更新策略第35-40页
     ·数据抓取策略第35-37页
     ·数据更新策略第37-39页
     ·数据重抓频率第39页
     ·数据抓取顺序第39-40页
   ·基于查询驱动的抓取技术第40-43页
   ·对象变化频率的估算方法第43-45页
     ·对象变化的采样方法第43-44页
     ·预测对象变化规律第44-45页
   ·对象热门程度预测第45-46页
   ·基于泊松过程的抓取调度策略第46-47页
   ·本章小结第47-48页
5 测试和实验第48-53页
   ·网页抓取结果比较第48-49页
   ·对象热门程度预测模型的验证第49-50页
   ·基于泊松过程的抓取调度策略的验证第50-51页
   ·本章小结第51-53页
结论第53-54页
参考文献第54-56页
攻读硕士学位期间发表学术论文情况第56-57页
致谢第57-58页

论文共58页,点击 下载论文
上一篇:面向信息物理系统的IEEE802.15.4MAC协议分析及优化
下一篇:基于带Path-Relinking的GRASP的超启发式方法