首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

基于多用户的Web信息采集系统的设计与实现

摘要第1-4页
Abstract第4-8页
第一章 绪论第8-14页
   ·引言第8页
   ·WEB信息采集简介第8-9页
   ·WEB信息采集技术的发展概况及研究现状第9-11页
   ·系统设计的目的和意义第11-12页
   ·系统的实现原理第12页
   ·本文内容安排第12-14页
第二章 WEB信息采集技术综述第14-22页
   ·WEB组成与相关技术第14-15页
     ·Web的组成第14页
     ·Web组成的基础技术第14-15页
   ·WEB的相关协议标准第15-19页
     ·HTML和HTML5第15-16页
     ·XML和XHTML第16-17页
     ·DOM和XPATH第17-19页
   ·WEB信息采集的基本原理第19-21页
   ·本章小结第21-22页
第三章 系统整体设计及开发中的主要问题第22-30页
   ·系统整体设计第22-25页
     ·系统概述第22-23页
     ·系统结构第23-24页
     ·具体功能设计第24-25页
   ·开发工具及开发中的主要问题第25-29页
     ·Python编程语言介绍第26-27页
     ·系统开发所使用的关键开发包第27页
     ·开发中的主要问题第27-29页
       ·Python同C语言的混合编程第28-29页
       ·QWebView中Javascript的调用及回调第29页
   ·本章小结第29-30页
第四章 采集模块的设计与实现第30-46页
   ·采集控制模块第30-34页
     ·多进程控制第30-33页
       ·Fork简介第30-31页
       ·Multiprocessing进程控制第31-33页
     ·采集任务分发第33-34页
   ·WEB采集流程设计第34-42页
     ·采集项目文件格式第35页
     ·Web采集总体设计第35-36页
     ·页面爬行流程设计第36-38页
       ·爬行规则第36-37页
       ·爬行流程第37页
       ·递归循环规则第37-38页
     ·信息提取流程设计第38-41页
       ·提取规则第38-39页
       ·提取原理第39页
       ·提取流程第39-41页
       ·页面的清理(tidy)第41页
     ·提取结果的输出第41-42页
   ·采集实验第42-44页
   ·本章小结第44-46页
第五章 AGENT客户端的设计与实现第46-54页
   ·客户端功能设计第46-47页
   ·可视化XPATH定位第47-48页
     ·页面元素XPATH计算第47-48页
   ·设置项目的序列化第48-49页
     ·设置项目的保存与载入第49页
   ·客户端的具体实现第49-51页
     ·采集项目编辑器第50页
     ·采集任务管理器第50-51页
   ·客户端测试实验第51-52页
   ·本章小结第52-54页
第六章 中心服务器的设计与实现第54-64页
   ·中心服务器的基本构架第54-55页
   ·XML-RPC协议封装第55-56页
   ·服务器后台管理模块的实现第56-61页
     ·采集任务数据结构第56-57页
     ·管理模块的具体实现第57-61页
       ·用户账号管理第58-59页
       ·采集任务管理第59页
       ·管理模块测试第59-61页
   ·服务器系统状态监控第61-62页
     ·监控系统的安装配置第61-62页
   ·中心服务器测试实验第62-63页
   ·本章小结第63-64页
第七章 结束语第64-66页
   ·总结第64页
   ·展望第64-66页
致谢第66-68页
参考文献第68-72页
研究成果第72页

论文共72页,点击 下载论文
上一篇:基于GPS/GPRS的邮政通信运输管理系统研究
下一篇:机场航显系统中消息中间件设计与实现