首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于模板化网络爬虫技术的Web网页信息抽取

摘要第1-5页
ABSTRACT第5-9页
第一章 引言第9-15页
   ·研究背景第9-10页
   ·国内外研究现状第10-13页
     ·网络爬虫第10-11页
     ·聚焦网络爬虫第11页
     ·Deep Web 网络爬虫第11-12页
     ·基于模板化的网络爬虫技术第12-13页
   ·本文研究内容第13-15页
第二章 与网络爬虫技术相关的研究工作第15-35页
   ·搜索引擎第15-16页
     ·原理第15页
     ·种类第15-16页
   ·传统爬虫技术第16-19页
     ·基本框架第16-17页
     ·工作原理第17页
     ·搜索策略第17-19页
   ·正则表达式第19-20页
   ·页面分析第20-21页
   ·模板第21-34页
     ·使用模板的优点第22页
     ·模板的组织形式及使用第22-30页
       ·配置文件第23-24页
       ·模板库第24-27页
       ·其他数据库表第27-29页
       ·网站分析第29-30页
     ·模板的设计与实现第30-33页
     ·模板还存在的问题第33-34页
   ·小结第34-35页
第三章 系统结构与运行原理第35-51页
   ·系统的组织结构第35-37页
   ·模板匹配模块及其原理第37-40页
   ·网络爬行及 URL 队列管理模块及其原理第40-42页
   ·网页抓取模块第42-43页
   ·网页解析模块第43-44页
   ·数据库管理模块第44-47页
   ·HBASE 写入模块第47-48页
   ·异常模块第48-49页
   ·系统的工作流程第49-50页
   ·本章小结第50-51页
第四章 系统测试与结果分析第51-60页
   ·基于模板化网络爬虫技术的 Web 网页信息抽取系统测试第51-54页
   ·测试结果分析第54-59页
   ·结论第59页
   ·本章小结第59-60页
第五章 结束语第60-62页
致谢第62-63页
参考文献第63-65页
附录第65-74页

论文共74页,点击 下载论文
上一篇:基于LINUX的MSTP设计与实现
下一篇:网页消重技术的研究与实现