基于广度优先的主题爬虫的设计与实现

摘要	第1-5页
Abstract	第5-6页
第一章绪论	第6-9页
·网络爬虫的研究现状	第6页
·网络爬虫存在的问题	第6-7页
·本文的主要工作	第7-8页
·本文的篇章结构	第8-9页
第二章网络搜索技术	第9-27页
·本文技术设计思路	第9-10页
·网络搜索程序概述	第10-11页
·网络搜索中的隧道现象	第11-13页
·隧道现象简介	第11页
·隧道现象的一般解决策略	第11-13页
·暗网络	第13-16页
·暗网络简介	第13-14页
·暗网分类	第14页
·暗网的处理方法	第14-16页
·网页内容分析	第16-19页
·WEB页面的类型分析	第16-17页
·WEB页面的表示分析	第17-19页
·WEB页面分类模型	第19-22页
·WEB页面分类模型	第20页
·加权均衡的WEB页面分类	第20-21页
·ICTCLAS简介	第21-22页
·文本分析模块需求分析	第22-23页
·文本分词功能	第22页
·特征提取功能	第22-23页
·开源爬虫	第23-25页
·本文的工作流程	第25-27页
第三章广度优先主题爬虫的需求分析	第27-41页
·主题爬虫的需求分析	第27-28页
·主题爬虫的需求建模	第28-29页
·网页爬取模块需求分析	第29-31页
·URL的消重的需求分析	第31-38页
·标记树的建立流程	第34-35页
·文和超级链接的提取流程	第35-38页
·页面存储模块的需求分析	第38-39页
·Nutch软件	第39-41页
第四章基于广度优先主题爬虫的设计实现	第41-56页
·网络搜索程序的总体架构	第41页
·广度优先搜索方案实现	第41-43页
·广度优先搜索算法	第42页
·算法实现	第42-43页
·网络搜索程序的主要数据结构	第43-45页
·元数据	第43-44页
·WEB页面内容	第44-45页
·DNS缓存模块	第45-46页
·线程池工作模块	第46-48页
·URL分析模块	第48-49页
·数据库设计	第49-51页
·分词模块	第51-53页
·基于广度优先方案搜索程序的特点	第53-56页
第五章结论	第56-59页
·同类程序比较	第56-57页
·不足与展望	第57-59页
参考文献	第59-61页
致谢	第61-62页