互联网爬行器的研究与实现

提要	第1-8页
第1章绪论	第8-12页
·研究背景	第8-10页
·网络资源	第8-9页
·网络资源的现状及发展	第9-10页
·研究的目的和意义	第10页
·主要工作	第10-11页
·本章小结	第11-12页
第2章搜索引擎	第12-28页
·搜索引擎的介绍	第12页
·发展历史	第12-14页
·搜索引擎分类	第14-15页
·搜索引擎的工作原理	第15-19页
·搜索引擎的工作步骤	第15-16页
·爬行器	第16页
·索引器	第16-17页
·检索器	第17-18页
·存储器	第18-19页
·爬行陷阱	第19页
·Google搜索引擎	第19-25页
·Google搜索引擎的体系结构	第19-21页
·Google的数据库结构	第21-23页
·网页等级值(pagerank)	第23-24页
·Google的搜索过程	第24-25页
·搜索引擎发展的现状以及趋势	第25-26页
·本章小结	第26-28页
第3章爬行器的系统概述	第28-30页
·功能概述	第28页
·体系结构	第28-29页
·系统环境	第29页
·本章小结	第29-30页
第4章爬行器的总体设计	第30-37页
·爬行器的总体设计	第30-31页
·爬行器的工作流程	第30-31页
·爬行器的递归方法	第31页
·爬行器的非递归方法	第31页
·爬行器的搜索策略	第31-32页
·深度优先搜索策略	第32-33页
·宽度优先搜索策略	第33-35页
·爬行器模块的设计	第35-36页
·网页下载模块的设计	第35-36页
·网页解析模块的设计	第36页
·本章小结	第36-37页
第5章爬行器系统的实现	第37-52页
·网页下载模块的实现	第37-41页
·HTTP类	第37-38页
·Set_Request函数的实现	第38-39页
·read_header函数的实现	第39页
·Fetch函数的实现	第39-40页
·read_body函数的实现	第40-41页
·网页解析的设计与实现	第41-43页
·Page类	第41-42页
·GetContentLength函数的实现	第42页
·GetLocation函数的实现	第42-43页
·标签容器	第43页
·crawler类	第43-47页
·crawler类的实现	第43-45页
·unvisiteurl和visitedurl的实现	第45-46页
·GetNewUrl函数的实现	第46-47页
·数据库的实现及MD5加密	第47-48页
·多线程的设计与实现	第48-49页
·main函数	第49-50页
·实验	第50页
·爬行器的评价	第50-51页
·本章小结	第51-52页
第6章工作的总结与展望	第52-54页
·工作项目的总结	第52页
·工作项目的展望	第52-54页
参考文献	第54-56页
致谢	第56-57页
摘要	第57-60页
Abstract	第60-62页