主题网络爬虫的分析与设计
摘要 | 第1-6页 |
ABSTRACT | 第6-10页 |
第一章 引言 | 第10-16页 |
·概述 | 第10-11页 |
·国内外研究现状 | 第11-14页 |
·通用网络爬虫研究现状 | 第11-12页 |
·主题网络爬虫研究现状 | 第12-14页 |
·论文主要工作 | 第14-16页 |
第二章 搜索引擎中的网络爬虫 | 第16-28页 |
·搜索引擎的介绍 | 第16-21页 |
·搜索引擎的发展历史 | 第16-17页 |
·搜索引擎的分类 | 第17-20页 |
·搜索引擎的工作原理 | 第20-21页 |
·网络爬虫的结构 | 第21-26页 |
·通用网络爬虫结构体系 | 第21-24页 |
·主题网络爬虫体系结构 | 第24-26页 |
·本章小结 | 第26-28页 |
第三章 对主题网络爬虫关键技术的分析 | 第28-44页 |
·主题网络爬虫的搜索策略 | 第28-30页 |
·基于内容的搜索策略 | 第30-32页 |
·Fish-Search算法 | 第31-32页 |
·Shark-Search算法和相关度计算 | 第32页 |
·基于链接的搜索策略 | 第32-35页 |
·PageRank算法 | 第33-35页 |
·两种算法的比较 | 第35页 |
·各种策略的对比以及隧道现象 | 第35-43页 |
·各种策略的对比分析 | 第35-36页 |
·隧道现象 | 第36-37页 |
·基于隧道现象的Fish-Search算法改进 | 第37-39页 |
·改进的Shark-Search算法 | 第39-43页 |
·本章小结 | 第43-44页 |
第四章 主题网络爬虫的系统设计 | 第44-63页 |
·开发工具 | 第44-46页 |
·Heritrjx | 第44-45页 |
·Eclipse | 第45-46页 |
·系统的主要模块设计 | 第46-61页 |
·系统功能模块组成 | 第46-48页 |
·系统主要的工作流程 | 第48-49页 |
·种子集合的选择 | 第49-50页 |
·Socket连接和Http协议分析 | 第50-52页 |
·HTML协议分析 | 第52-57页 |
·中文分词算法 | 第57-58页 |
·页面消重分析和SCAM算法 | 第58-61页 |
·存储设计 | 第61-62页 |
·本章小结 | 第62-63页 |
第五章 实验分析 | 第63-66页 |
·实验环境 | 第63页 |
·数据性能评价指标 | 第63-64页 |
·实验结果与分析 | 第64-66页 |
第六章 总结与展望 | 第66-67页 |
·论文工作总结 | 第66页 |
·问题与展望 | 第66-67页 |
参考文献 | 第67-70页 |
致谢 | 第70页 |