首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

深度web采集系统的设计与实现

摘要第1-6页
ABSTRACT第6-11页
第一章 绪论第11-17页
   ·课题研究背景第11页
   ·国内外课题研究现状第11-15页
     ·通用 Web 采集第12-13页
     ·垂直 Web 采集第13-14页
     ·深度 Web 采集第14-15页
   ·本论文主要工作第15-16页
   ·论文组织结构第16-17页
第二章 相关技术介绍第17-30页
   ·爬虫技术第17-19页
     ·通用爬虫第17-18页
     ·深度爬虫第18-19页
   ·AJAX 页面解析技术第19-21页
     ·AJAX 技术介绍第19-20页
     ·常见 AJAX 解析技术第20-21页
   ·代理服务器技术第21-22页
   ·网页去重技术第22-23页
   ·索引和检索技术第23-28页
     ·向量空间模型第23-24页
     ·中文分词第24-25页
     ·特征提取第25-26页
     ·倒排索引第26-28页
   ·正则表达式和 XPATH第28-29页
   ·本章小结第29-30页
第三章 WEB 信息采集系统总体设计方案第30-45页
   ·需求分析第30-31页
   ·系统概要设计第31-32页
   ·系统流程设计第32-37页
     ·采集流程设计第32-35页
     ·分析处理流程设计第35-36页
     ·检索流程设计第36-37页
   ·数据库和关键数据结构设计第37-42页
     ·网站模板设计第37-41页
     ·系统数据库设计第41-42页
   ·环境要求第42-44页
     ·运行环境要求第42-43页
     ·开发环境配置第43-44页
   ·本章小结第44-45页
第四章 系统各模块详细设计与实现第45-74页
   ·系统总体架构第45页
   ·深度抓取相关模块设计与实现第45-55页
     ·一般网页抓取模块第45-47页
     ·HtmlUnit 模块第47-49页
     ·自动代理模块第49-51页
     ·网页去重模块第51-53页
     ·模板管理模块第53-55页
   ·内容分析处理相关模块设计与实现第55-60页
     ·内容提取模块第55-56页
     ·中文分词模块第56-58页
     ·倒排索引设计第58-60页
   ·任务调度器设计与实现第60-65页
     ·初始化流程第60-63页
     ·任务调度模块第63-65页
   ·用户界面设计与实现第65-73页
     ·欢迎界面第65-66页
     ·采集任务管理第66-67页
     ·采集内容管理第67-70页
     ·网站模板管理第70-71页
     ·系统配置第71-73页
   ·本章小结第73-74页
第五章 系统测试与分析第74-78页
   ·测试环境第74页
   ·抓取速度第74-75页
   ·反抓取应对能力第75页
   ·内容提取准确度第75-77页
   ·本章小结第77-78页
第六章 总结与展望第78-80页
   ·本文主要工作第78-79页
   ·后续工作展望第79-80页
致谢第80-81页
参考文献第81-83页

论文共83页,点击 下载论文
上一篇:银行绩效考核系统的设计与实现
下一篇:四川电力建设公司人力资源业务管理平台的设计与实现