网络爬虫系统的研究与实现

摘要	第1-6页
ABSTRACT	第6-7页
目录	第7-10页
第1章概述	第10-15页
·引言	第10-11页
·网络爬虫的研究背景与意义	第11-12页
·网络爬虫国内外研究现状	第12-13页
·研究内容	第13页
·本课题解决的关键问题	第13页
·本文的主要研究内容	第13页
·论文章节安排	第13-15页
第2章相关技术介绍	第15-28页
·网络爬虫简介	第15-17页
·Spider 的概念	第15页
·网络爬虫原理	第15-16页
·网络爬虫搜索策略	第16-17页
·C#线程	第17-21页
·线程概述	第17-18页
·C#线程模型	第18页
·创建线程	第18-19页
·C#中的线程的生命周期	第19-20页
·多线程同步	第20页
·URL 消重	第20-21页
·URL 消重的意义	第20页
·网络爬虫 URL 去重储存库设计	第20-21页
·基于磁盘的顺序存储	第21页
·URL 类访问网络	第21-22页
·爬行策略浅析	第22-26页
·宽度或深度优先搜索策略	第22页
·聚焦搜索策略	第22-23页
·基于内容评价的搜索策略	第23页
·基于链接结构评价的搜索策略	第23-25页
·基于巩固学习的聚焦搜索	第25页
·基于语境图的聚焦搜索	第25-26页
·正则表达式	第26-27页
·正则表达式应用分析	第26页
·正则表达式的元字符分析	第26-27页
·本章小结	第27-28页
第3章系统需求分析及模块设计	第28-31页
·系统需求分析	第28页
·SPIDER 体系结构	第28-29页
·主要功能模块（类）的设计	第29-30页
·SPIDER 工作过程	第30页
·本章小结	第30-31页
第4章系统分析与设计	第31-37页
·SPIDER 构造分析	第31-32页
·爬行策略分析	第32-34页
·多线程爬虫模型分析	第33页
·爬虫集群模型分析	第33-34页
·URL 抽取，解析和保存	第34-36页
·URL 抽取	第34-35页
·URL 解析	第35页
·URL 保存	第35-36页
·本章小结	第36-37页
第5章系统实现	第37-50页
·实现工具	第37页
·MYSQL 数据库的实现	第37-38页
·URL 解析	第38-39页
·URL 队列管理	第39页
·URL 消重处理	第39页
·URL 等待队列维护	第39页
·SOCKET Create()函数的设计与实现	第39-41页
·CCONNECT( )函数的设计与实现	第41-43页
·CCLOSE( )函数模块的设计与实现	第43-44页
·CSEND( )函数模块的设计与实现	第44-45页
·CRECV( )函数模块的设计与实现	第45-46页
·主要类的实现	第46-49页
·本章小结	第49-50页
第6章系统测试	第50-59页
·系统性能测试理论基础	第50-51页
·详细测试过程	第51-54页
·研究成果	第54-59页
第7章结论	第59-61页
致谢	第61-62页
参考文献	第62-64页