首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

面向Web2.0社区的爬虫关键技术研究

摘要第1-4页
Abstract第4-9页
第1章 绪论第9-15页
   ·课题背景第9页
   ·Web 2.0社区简介第9-12页
     ·Web 2.0社区的特点第9-10页
     ·典型的Web 2.0社区第10-12页
   ·传统搜索引擎对Web 2.0社区的支持第12-13页
     ·实时搜索第12页
     ·动态内容索引第12-13页
   ·本文工作第13-14页
   ·章节安排第14-15页
第2章 面向Web 2.0社区的爬虫技术综述第15-28页
   ·实时搜索相关研究第15-23页
     ·主动模式的爬虫第15-19页
     ·被动模式的爬虫第19-21页
     ·实时索引第21-23页
   ·Ajax爬虫相关研究第23-27页
     ·动态脚本解析第24-25页
     ·状态转换图模型第25-26页
     ·优化与改进工作第26-27页
   ·本章小结第27-28页
第3章 质量优先的实时爬虫调度策略第28-42页
   ·索引质量指标第28-30页
     ·索引时延第28页
     ·内容权重第28-30页
     ·综合度量指标第30页
   ·面向质量的爬虫调度策略优化问题第30页
   ·面向质量的爬虫调度策略优化算法第30-35页
     ·内容权重发布模式第30-34页
     ·概率预测模型第34页
     ·优化的爬虫调度算法第34-35页
   ·实验比较第35-40页
     ·实验设置第36页
     ·实验数据分析第36-38页
     ·概率预测模型训练第38-39页
     ·不同爬虫调度策略比较第39页
     ·实验结论第39-40页
   ·本章小结第40-42页
第4章 基于状态转换图的动态网页抓取第42-57页
   ·状态转换图模型第42-48页
     ·状态转换图定义第43-44页
     ·状态转换图示例第44页
     ·基于状态转换图的广度优先爬行算法第44-45页
     ·算法存在的主要问题第45-48页
   ·算法改进第48-51页
     ·基于XPath特征的无效元素检测第48-49页
     ·基于XHR监听的异步请求优化第49-51页
   ·优化的Ajax爬虫算法第51-53页
   ·实验比较第53-56页
     ·实验设置第53页
     ·网页召回率比较第53-54页
     ·有效状态比例比较第54-55页
     ·异步请求数比较第55-56页
     ·实验结论第56页
   ·本章小结第56-57页
第5章 面向Web 2.0社区的爬虫原型第57-61页
   ·总体设计第57页
   ·模块介绍第57-59页
     ·调度器第57-58页
     ·嵌入式浏览器第58页
     ·机器人第58页
     ·监听器第58-59页
     ·有限状态机第59页
     ·控制器第59页
   ·系统应用第59-60页
   ·本章小结第60-61页
第6章 总结与展望第61-64页
   ·贡献和创新第61-62页
   ·不足和局限第62-63页
   ·未来展望第63-64页
参考文献第64-67页
攻读硕士学位期间主要的研究成果第67-68页
致谢第68页

论文共68页,点击 下载论文
上一篇:面向移动对象的高效可视近邻查询研究
下一篇:基于机器学习方法的彩色体数据可视化研究