摘要 | 第1-4页 |
Abstract | 第4-8页 |
第一章 绪论 | 第8-14页 |
·引言 | 第8页 |
·WEB信息采集简介 | 第8-9页 |
·WEB信息采集技术的发展概况及研究现状 | 第9-11页 |
·系统设计的目的和意义 | 第11-12页 |
·系统的实现原理 | 第12页 |
·本文内容安排 | 第12-14页 |
第二章 WEB信息采集技术综述 | 第14-22页 |
·WEB组成与相关技术 | 第14-15页 |
·Web的组成 | 第14页 |
·Web组成的基础技术 | 第14-15页 |
·WEB的相关协议标准 | 第15-19页 |
·HTML和HTML5 | 第15-16页 |
·XML和XHTML | 第16-17页 |
·DOM和XPATH | 第17-19页 |
·WEB信息采集的基本原理 | 第19-21页 |
·本章小结 | 第21-22页 |
第三章 系统整体设计及开发中的主要问题 | 第22-30页 |
·系统整体设计 | 第22-25页 |
·系统概述 | 第22-23页 |
·系统结构 | 第23-24页 |
·具体功能设计 | 第24-25页 |
·开发工具及开发中的主要问题 | 第25-29页 |
·Python编程语言介绍 | 第26-27页 |
·系统开发所使用的关键开发包 | 第27页 |
·开发中的主要问题 | 第27-29页 |
·Python同C语言的混合编程 | 第28-29页 |
·QWebView中Javascript的调用及回调 | 第29页 |
·本章小结 | 第29-30页 |
第四章 采集模块的设计与实现 | 第30-46页 |
·采集控制模块 | 第30-34页 |
·多进程控制 | 第30-33页 |
·Fork简介 | 第30-31页 |
·Multiprocessing进程控制 | 第31-33页 |
·采集任务分发 | 第33-34页 |
·WEB采集流程设计 | 第34-42页 |
·采集项目文件格式 | 第35页 |
·Web采集总体设计 | 第35-36页 |
·页面爬行流程设计 | 第36-38页 |
·爬行规则 | 第36-37页 |
·爬行流程 | 第37页 |
·递归循环规则 | 第37-38页 |
·信息提取流程设计 | 第38-41页 |
·提取规则 | 第38-39页 |
·提取原理 | 第39页 |
·提取流程 | 第39-41页 |
·页面的清理(tidy) | 第41页 |
·提取结果的输出 | 第41-42页 |
·采集实验 | 第42-44页 |
·本章小结 | 第44-46页 |
第五章 AGENT客户端的设计与实现 | 第46-54页 |
·客户端功能设计 | 第46-47页 |
·可视化XPATH定位 | 第47-48页 |
·页面元素XPATH计算 | 第47-48页 |
·设置项目的序列化 | 第48-49页 |
·设置项目的保存与载入 | 第49页 |
·客户端的具体实现 | 第49-51页 |
·采集项目编辑器 | 第50页 |
·采集任务管理器 | 第50-51页 |
·客户端测试实验 | 第51-52页 |
·本章小结 | 第52-54页 |
第六章 中心服务器的设计与实现 | 第54-64页 |
·中心服务器的基本构架 | 第54-55页 |
·XML-RPC协议封装 | 第55-56页 |
·服务器后台管理模块的实现 | 第56-61页 |
·采集任务数据结构 | 第56-57页 |
·管理模块的具体实现 | 第57-61页 |
·用户账号管理 | 第58-59页 |
·采集任务管理 | 第59页 |
·管理模块测试 | 第59-61页 |
·服务器系统状态监控 | 第61-62页 |
·监控系统的安装配置 | 第61-62页 |
·中心服务器测试实验 | 第62-63页 |
·本章小结 | 第63-64页 |
第七章 结束语 | 第64-66页 |
·总结 | 第64页 |
·展望 | 第64-66页 |
致谢 | 第66-68页 |
参考文献 | 第68-72页 |
研究成果 | 第72页 |