基于超链接搜索策略网络爬行器的设计与实现

提要	第1-8页
第一章绪论	第8-14页
·研究背景	第8-11页
·Web 信息资源	第8-10页
·Web 信息资源的发展	第10-11页
·研究的目的及意义	第11-13页
·本文的主要工作	第13-14页
第二章搜索引擎介绍	第14-35页
·搜索引擎简介	第14页
·搜索引擎发展历史	第14-15页
·搜索引擎分类	第15-17页
·搜索引擎相关技术	第17-22页
·爬行器	第17-18页
·索引	第18-19页
·存储	第19-20页
·检索	第20-21页
·爬行陷阱	第21-22页
·经典搜索引擎Google	第22-30页
·Google 的体系结构	第22-25页
·Google 的数据结构	第25-28页
·网页的等级值（Rank）计算	第28-29页
·搜索过程	第29-30页
·搜索引擎研究现状	第30-35页
·Focus Project	第30-31页
·CiteSeer & eBusiSearch	第31-32页
·CORA	第32页
·Harvest & Greenstone	第32-33页
·OASIS	第33-34页
·STIP	第34-35页
第三章基于超链接信息的搜索策略	第35-40页
·宽度优先搜索的Web 网页爬行方法	第35-36页
·利用超链接信息对搜索策略的改进	第36-38页
·本文对基于超链接信息搜索策略的改进	第38-40页
第四章爬行器的设计与实现	第40-57页
·爬行器总体设计	第40-43页
·递归程序	第40-41页
·非递归程序	第41-42页
·爬行器工作流程	第42-43页
·网页下载相关类的设计与实现	第43-45页
·Attribute 类与AttributeList 类	第43-44页
·HTTP 类与HTTPSocket 类	第44-45页
·网页解析相关类的设计与实现	第45-49页
·解析器工作流程	第46页
·HTMLPage 类	第46-47页
·HTTPTag 类	第47-48页
·Parse 类与HTMLParser 类	第48-49页
·Spider 类及其相关类	第49-51页
·Spider 类	第49-50页
·ISpiderReportable 接口	第50页
·SpiderSQLWorkload 类	第50页
·SpiderWorker 类	第50-51页
·数据库的设计以及对改进型超链接策略的模拟	第51-52页
·数据库存储设计	第51页
·对改进型超链接搜索策略的模拟	第51-52页
·实现中的难点	第52-56页
·多线程的设计	第52-53页
·多线程之间的通信	第53-55页
·大小动态变化的线程池的设计与实现	第55-56页
·实验	第56-57页
第五章总结与展望	第57-58页
·总结	第57页
·进一步工作	第57-58页
参考文献	第58-63页
摘要	第63-67页
Abstract	第67-71页
致谢	第71页