基于领域的网络爬虫技术的研究与实现

摘要	第1-5页
Abstract	第5-9页
第1章绪论	第9-15页
·选题的背景	第9-11页
·搜索引擎的发展现状	第11-13页
·文本分类技术概述	第13页
·本文的结构及研究的内容	第13-15页
第2章网络爬虫	第15-21页
·网络爬虫概述	第15-18页
·网络爬虫的工作原理	第16-17页
·网络爬虫的搜索策略	第17-18页
·网络爬虫的实现	第18-20页
·网络爬虫的技术实现	第18-19页
·Web爬行的实现困境	第19-20页
·本章小结	第20-21页
第3章面向领域的Web爬行器	第21-49页
·领域相关的网络爬虫	第21-24页
·爬虫结构的设计	第21-24页
·爬虫的技术实现路径图	第24页
·域名解析器的设计	第24-26页
·并行抓取策略的实现	第26-29页
·多线程技术	第26-27页
·非阻塞套接字技术	第27-29页
·URL调度实现	第29-38页
·基于概率模型的启发式度量规则	第29-32页
·URL调度策略及数据结构	第32-33页
·基于最佳优先搜索的隧道技术	第33-38页
·页面存储技术的实现	第38-44页
·页面存储	第38-39页
·布尔查询与反向索引技术	第39-41页
·页面存储库更新	第41-42页
·索引压缩技术	第42-44页
·其他相关技术实现	第44-47页
·HTML分析模块	第44-45页
·URL过滤模块	第45-46页
·更新抓取实现策略	第46-47页
·监测管理器的实现策略	第47页
·本章小结	第47-49页
第4章 Web文本分类器	第49-60页
·文本分类原理	第49-50页
·HTML文本的表示形式	第50-52页
·向量空间模型(VSM)	第50-51页
·评估页面与用户查询主题的相关度	第51-52页
·朴素贝叶斯分类器	第52-56页
·朴素贝叶斯分类器	第52-54页
·改进的朴素贝叶斯分类算法	第54-56页
·本章小结及实验数据	第56-60页
·文本分类实验	第57-59页
·本章小结	第59-60页
第5章实验与数据分析	第60-66页
·实验步骤	第60-63页
·定义爬虫结构	第60-61页
·实现爬虫算法	第61-63页
·爬虫实验数据	第63-65页
·实验结果分析	第65-66页
第6章总结和展望	第66-68页
参考文献	第68-73页
致谢	第73-74页
攻读硕士期间发表的学术论文	第74页