首页--工业技术论文--自动化技术、计算机技术论文--自动化技术及设备论文--自动化系统论文--数据处理、数据处理系统论文

基于Nutch的信息采集系统的研究与实现

摘要第1-6页
Abstract第6-11页
第一章 绪论第11-15页
   ·项目研究背景和意义第11-12页
   ·信息采集系统的国内外研究现状第12-14页
   ·主要研究工作和内容第14页
   ·论文结构第14-15页
第二章 系统相关技术研究第15-26页
   ·Hadoop Framwork第15-21页
     ·MapReduce第15-17页
     ·Hadoop 分布式文件系统第17-18页
     ·Hadoop 的并行化原理第18-21页
     ·小结第21页
   ·Nutch 系统第21-25页
     ·Nutch 系统框架第22-23页
     ·Nutch 爬虫系统第23-24页
     ·Nutch 插件第24-25页
   ·本章小结第25-26页
第三章 ICSBN 系统设计和模块实现第26-36页
   ·ICSBN 的系统设计目标第26-27页
   ·ICSBN 系统的数据存储介绍第27-29页
   ·ICSBN 的系统设计第29-31页
   ·各模块的实现第31-35页
     ·注入器-Injector第31页
     ·选择器-URL Selector第31-33页
     ·采集器-Fetcher第33-34页
     ·解析器-Parser第34页
     ·更新器-Updater第34-35页
   ·本章小结第35-36页
第四章 ICSBN 系统扩展策略的研究第36-56页
   ·域名解析缓存策略第36-39页
     ·多级缓存的域名解析第37-38页
     ·相关算法及设计第38-39页
   ·IP 过滤插件第39-42页
     ·插件系统的相关概念第39-42页
     ·IP 过滤插件的实现第42页
   ·URL 重要度衡量第42-48页
     ·网页重要度计算算法第44-45页
     ·URL 权值评价第45-47页
     ·OPIC 算法扩展第47-48页
   ·网页更新预测第48-55页
     ·网页指纹第48-49页
     ·网页更新时间的预测算法第49-50页
     ·动态选择策略第50-52页
     ·重要参数的确定第52-55页
   ·本章小结第55-56页
第五章 实验与结果分析第56-67页
   ·实验环境第56页
     ·硬件环境第56页
     ·系统部署第56页
   ·系统实验第56-65页
     ·域名解析策略实验第56-59页
     ·URL 重要度衡量实验第59-61页
     ·网页更新预测实验第61-63页
     ·系统性能实验第63-65页
   ·实验结果和分析第65-66页
   ·本章小结第66-67页
总结与展望第67-69页
参考文献第69-74页
攻读硕士学位期间取得的研究成果第74-75页
致谢第75页

论文共75页,点击 下载论文
上一篇:基于主元分析方法的炼油厂蒸馏过程故障诊断研究
下一篇:面向对象设计及变参数PID在啤酒生产控制中的应用研究