基于多用户的Web信息采集系统的设计与实现

摘要	第1-4页
Abstract	第4-8页
第一章绪论	第8-14页
·引言	第8页
·WEB信息采集简介	第8-9页
·WEB信息采集技术的发展概况及研究现状	第9-11页
·系统设计的目的和意义	第11-12页
·系统的实现原理	第12页
·本文内容安排	第12-14页
第二章 WEB信息采集技术综述	第14-22页
·WEB组成与相关技术	第14-15页
·Web的组成	第14页
·Web组成的基础技术	第14-15页
·WEB的相关协议标准	第15-19页
·HTML和HTML5	第15-16页
·XML和XHTML	第16-17页
·DOM和XPATH	第17-19页
·WEB信息采集的基本原理	第19-21页
·本章小结	第21-22页
第三章系统整体设计及开发中的主要问题	第22-30页
·系统整体设计	第22-25页
·系统概述	第22-23页
·系统结构	第23-24页
·具体功能设计	第24-25页
·开发工具及开发中的主要问题	第25-29页
·Python编程语言介绍	第26-27页
·系统开发所使用的关键开发包	第27页
·开发中的主要问题	第27-29页
·Python同C语言的混合编程	第28-29页
·QWebView中Javascript的调用及回调	第29页
·本章小结	第29-30页
第四章采集模块的设计与实现	第30-46页
·采集控制模块	第30-34页
·多进程控制	第30-33页
·Fork简介	第30-31页
·Multiprocessing进程控制	第31-33页
·采集任务分发	第33-34页
·WEB采集流程设计	第34-42页
·采集项目文件格式	第35页
·Web采集总体设计	第35-36页
·页面爬行流程设计	第36-38页
·爬行规则	第36-37页
·爬行流程	第37页
·递归循环规则	第37-38页
·信息提取流程设计	第38-41页
·提取规则	第38-39页
·提取原理	第39页
·提取流程	第39-41页
·页面的清理(tidy)	第41页
·提取结果的输出	第41-42页
·采集实验	第42-44页
·本章小结	第44-46页
第五章 AGENT客户端的设计与实现	第46-54页
·客户端功能设计	第46-47页
·可视化XPATH定位	第47-48页
·页面元素XPATH计算	第47-48页
·设置项目的序列化	第48-49页
·设置项目的保存与载入	第49页
·客户端的具体实现	第49-51页
·采集项目编辑器	第50页
·采集任务管理器	第50-51页
·客户端测试实验	第51-52页
·本章小结	第52-54页
第六章中心服务器的设计与实现	第54-64页
·中心服务器的基本构架	第54-55页
·XML-RPC协议封装	第55-56页
·服务器后台管理模块的实现	第56-61页
·采集任务数据结构	第56-57页
·管理模块的具体实现	第57-61页
·用户账号管理	第58-59页
·采集任务管理	第59页
·管理模块测试	第59-61页
·服务器系统状态监控	第61-62页
·监控系统的安装配置	第61-62页
·中心服务器测试实验	第62-63页
·本章小结	第63-64页
第七章结束语	第64-66页
·总结	第64页
·展望	第64-66页
致谢	第66-68页
参考文献	第68-72页
研究成果	第72页