主题网络爬虫的分析与设计
| 摘要 | 第1-6页 |
| ABSTRACT | 第6-10页 |
| 第一章 引言 | 第10-16页 |
| ·概述 | 第10-11页 |
| ·国内外研究现状 | 第11-14页 |
| ·通用网络爬虫研究现状 | 第11-12页 |
| ·主题网络爬虫研究现状 | 第12-14页 |
| ·论文主要工作 | 第14-16页 |
| 第二章 搜索引擎中的网络爬虫 | 第16-28页 |
| ·搜索引擎的介绍 | 第16-21页 |
| ·搜索引擎的发展历史 | 第16-17页 |
| ·搜索引擎的分类 | 第17-20页 |
| ·搜索引擎的工作原理 | 第20-21页 |
| ·网络爬虫的结构 | 第21-26页 |
| ·通用网络爬虫结构体系 | 第21-24页 |
| ·主题网络爬虫体系结构 | 第24-26页 |
| ·本章小结 | 第26-28页 |
| 第三章 对主题网络爬虫关键技术的分析 | 第28-44页 |
| ·主题网络爬虫的搜索策略 | 第28-30页 |
| ·基于内容的搜索策略 | 第30-32页 |
| ·Fish-Search算法 | 第31-32页 |
| ·Shark-Search算法和相关度计算 | 第32页 |
| ·基于链接的搜索策略 | 第32-35页 |
| ·PageRank算法 | 第33-35页 |
| ·两种算法的比较 | 第35页 |
| ·各种策略的对比以及隧道现象 | 第35-43页 |
| ·各种策略的对比分析 | 第35-36页 |
| ·隧道现象 | 第36-37页 |
| ·基于隧道现象的Fish-Search算法改进 | 第37-39页 |
| ·改进的Shark-Search算法 | 第39-43页 |
| ·本章小结 | 第43-44页 |
| 第四章 主题网络爬虫的系统设计 | 第44-63页 |
| ·开发工具 | 第44-46页 |
| ·Heritrjx | 第44-45页 |
| ·Eclipse | 第45-46页 |
| ·系统的主要模块设计 | 第46-61页 |
| ·系统功能模块组成 | 第46-48页 |
| ·系统主要的工作流程 | 第48-49页 |
| ·种子集合的选择 | 第49-50页 |
| ·Socket连接和Http协议分析 | 第50-52页 |
| ·HTML协议分析 | 第52-57页 |
| ·中文分词算法 | 第57-58页 |
| ·页面消重分析和SCAM算法 | 第58-61页 |
| ·存储设计 | 第61-62页 |
| ·本章小结 | 第62-63页 |
| 第五章 实验分析 | 第63-66页 |
| ·实验环境 | 第63页 |
| ·数据性能评价指标 | 第63-64页 |
| ·实验结果与分析 | 第64-66页 |
| 第六章 总结与展望 | 第66-67页 |
| ·论文工作总结 | 第66页 |
| ·问题与展望 | 第66-67页 |
| 参考文献 | 第67-70页 |
| 致谢 | 第70页 |