主题网络爬虫的研究和实现
摘要 | 第1-5页 |
Abstract | 第5-9页 |
第1章 绪论 | 第9-12页 |
·概述 | 第9页 |
·国内外研究现状 | 第9-11页 |
·本文的主要研究内容及组织结构 | 第11-12页 |
第2章 网络爬虫的体系结构 | 第12-19页 |
·搜索引擎概述 | 第12-14页 |
·搜索引擎的工作原理 | 第12-13页 |
·搜索引擎的分类 | 第13-14页 |
·通用爬虫的体系结构 | 第14-16页 |
·主题爬虫的体系结构 | 第16-18页 |
·本章小结 | 第18-19页 |
第3章 主题爬虫关键技术的研究 | 第19-30页 |
·文本特征项提取方法的研究 | 第19-21页 |
·主题爬虫搜索策略的研究 | 第21-27页 |
·广度和深度优先搜索策略 | 第22-23页 |
·基于内容的搜索策略 | 第23-24页 |
·基于链接的搜索策略 | 第24-27页 |
·页面消重技术分析 | 第27-29页 |
·URL消重 | 第28-29页 |
·内容消重 | 第29页 |
·本章小结 | 第29-30页 |
第4章 数码相机主题爬虫系统设计与分析 | 第30-50页 |
·开发工具简介 | 第30-32页 |
·Heritrix | 第30-31页 |
·Spring | 第31-32页 |
·系统总体设计 | 第32-35页 |
·系统模块设计 | 第32-33页 |
·系统流程设计 | 第33-35页 |
·数码相机初始种子集选择 | 第35页 |
·页面抓取模块 | 第35-40页 |
·页面抓取模块流程 | 第35-37页 |
·页面抓取模块分析与设计 | 第37-40页 |
·页面分析模块 | 第40-43页 |
·页面主题信息提取 | 第40-41页 |
·页面URL解析实现 | 第41-43页 |
·主题PR值算法计算模块 | 第43-44页 |
·主题相关度模型 | 第43页 |
·基于主题相关度PageRank算法的改进 | 第43-44页 |
·中文分词模块 | 第44-47页 |
·中文分词算法 | 第44-45页 |
·中文分词模块实现 | 第45-47页 |
·URL管理模块 | 第47-48页 |
·数据库设计 | 第48-49页 |
·本章小结 | 第49-50页 |
第5章 系统界面和实验数据分析 | 第50-55页 |
·系统界面 | 第50-53页 |
·系统平台 | 第50页 |
·系统界面以及操作流程 | 第50-53页 |
·实验数据分析 | 第53-54页 |
·本章小结 | 第54-55页 |
第6章 结束语 | 第55-57页 |
·全文总结 | 第55页 |
·问题与展望 | 第55-57页 |
致谢 | 第57-58页 |
参考文献 | 第58-60页 |