首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

利用Nutch研究与实现支持Ajax动态网页的网络爬虫系统

中文摘要第1-5页
ABSTRACT第5-10页
第一章 绪论第10-13页
   ·课题研究背景和意义第10页
   ·国内外研究现状第10-11页
   ·本文的主要工作及组织结构第11-13页
第二章 系统相关技术介绍第13-27页
   ·网络爬虫介绍第13-16页
     ·网络爬虫分类第13页
     ·网络爬虫爬行策略第13-16页
   ·Ajax 介绍第16-20页
     ·Ajax 技术介绍第16-17页
     ·网页中嵌入 JavaScript 的方式第17-18页
     ·JavaScript 跳转方式介绍第18-19页
     ·JQuery 实现 Ajax 请求介绍第19-20页
   ·网络信息采集策略第20-21页
     ·协议驱动采集第20页
     ·事件驱动采集第20-21页
   ·相关技术介绍第21-26页
     ·正则表达式第21-22页
     ·Nutch 简介第22页
     ·Nutch 基本原理分析第22-23页
     ·Nutch 工作流程分析第23-26页
     ·Hadoop 介绍第26页
     ·Quartz 介绍第26页
     ·HttpClient 介绍第26页
   ·本章小结第26-27页
第三章 系统设计思路第27-35页
   ·系统整体需求第27-28页
   ·Nutch 改进设计思路第28-32页
   ·JavaScript 处理器的构建思路第32-34页
   ·定时调度设计第34页
   ·本章小结第34-35页
第四章 系统实现第35-46页
   ·系统开发环境介绍第35页
   ·Nutch 的安装和配置第35-37页
   ·JavaScript 处理器的实现第37-41页
     ·JavaScript 处理器获取页面脚本第37-39页
     ·使用正则表达式匹配脚本第39-41页
     ·判断 URL 是否属于 Ajax 请求的 URL第41页
   ·定时调度的实现第41-42页
   ·系统实现效果图第42-45页
   ·本章小结第45-46页
第五章 系统测试第46-50页
   ·系统测试环境搭建第46-48页
   ·系统功能测试第48-49页
   ·本章小结第49-50页
第六章 总结与展望第50-52页
参考文献第52-54页
攻读学位期间发表的学术论文第54-55页
参与的科研项目第55-56页
致谢第56页

论文共56页,点击 下载论文
上一篇:基于层次短语的汉蒙统计机器翻译后处理研究
下一篇:基于静态分析的C程序控制流图构造方法研究