深度web采集系统的设计与实现
摘要 | 第1-6页 |
ABSTRACT | 第6-11页 |
第一章 绪论 | 第11-17页 |
·课题研究背景 | 第11页 |
·国内外课题研究现状 | 第11-15页 |
·通用 Web 采集 | 第12-13页 |
·垂直 Web 采集 | 第13-14页 |
·深度 Web 采集 | 第14-15页 |
·本论文主要工作 | 第15-16页 |
·论文组织结构 | 第16-17页 |
第二章 相关技术介绍 | 第17-30页 |
·爬虫技术 | 第17-19页 |
·通用爬虫 | 第17-18页 |
·深度爬虫 | 第18-19页 |
·AJAX 页面解析技术 | 第19-21页 |
·AJAX 技术介绍 | 第19-20页 |
·常见 AJAX 解析技术 | 第20-21页 |
·代理服务器技术 | 第21-22页 |
·网页去重技术 | 第22-23页 |
·索引和检索技术 | 第23-28页 |
·向量空间模型 | 第23-24页 |
·中文分词 | 第24-25页 |
·特征提取 | 第25-26页 |
·倒排索引 | 第26-28页 |
·正则表达式和 XPATH | 第28-29页 |
·本章小结 | 第29-30页 |
第三章 WEB 信息采集系统总体设计方案 | 第30-45页 |
·需求分析 | 第30-31页 |
·系统概要设计 | 第31-32页 |
·系统流程设计 | 第32-37页 |
·采集流程设计 | 第32-35页 |
·分析处理流程设计 | 第35-36页 |
·检索流程设计 | 第36-37页 |
·数据库和关键数据结构设计 | 第37-42页 |
·网站模板设计 | 第37-41页 |
·系统数据库设计 | 第41-42页 |
·环境要求 | 第42-44页 |
·运行环境要求 | 第42-43页 |
·开发环境配置 | 第43-44页 |
·本章小结 | 第44-45页 |
第四章 系统各模块详细设计与实现 | 第45-74页 |
·系统总体架构 | 第45页 |
·深度抓取相关模块设计与实现 | 第45-55页 |
·一般网页抓取模块 | 第45-47页 |
·HtmlUnit 模块 | 第47-49页 |
·自动代理模块 | 第49-51页 |
·网页去重模块 | 第51-53页 |
·模板管理模块 | 第53-55页 |
·内容分析处理相关模块设计与实现 | 第55-60页 |
·内容提取模块 | 第55-56页 |
·中文分词模块 | 第56-58页 |
·倒排索引设计 | 第58-60页 |
·任务调度器设计与实现 | 第60-65页 |
·初始化流程 | 第60-63页 |
·任务调度模块 | 第63-65页 |
·用户界面设计与实现 | 第65-73页 |
·欢迎界面 | 第65-66页 |
·采集任务管理 | 第66-67页 |
·采集内容管理 | 第67-70页 |
·网站模板管理 | 第70-71页 |
·系统配置 | 第71-73页 |
·本章小结 | 第73-74页 |
第五章 系统测试与分析 | 第74-78页 |
·测试环境 | 第74页 |
·抓取速度 | 第74-75页 |
·反抓取应对能力 | 第75页 |
·内容提取准确度 | 第75-77页 |
·本章小结 | 第77-78页 |
第六章 总结与展望 | 第78-80页 |
·本文主要工作 | 第78-79页 |
·后续工作展望 | 第79-80页 |
致谢 | 第80-81页 |
参考文献 | 第81-83页 |