首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于领域的网络爬虫技术的研究与实现

摘要第1-5页
Abstract第5-9页
第1章 绪论第9-15页
   ·选题的背景第9-11页
   ·搜索引擎的发展现状第11-13页
   ·文本分类技术概述第13页
   ·本文的结构及研究的内容第13-15页
第2章 网络爬虫第15-21页
   ·网络爬虫概述第15-18页
     ·网络爬虫的工作原理第16-17页
     ·网络爬虫的搜索策略第17-18页
   ·网络爬虫的实现第18-20页
     ·网络爬虫的技术实现第18-19页
     ·Web爬行的实现困境第19-20页
   ·本章小结第20-21页
第3章 面向领域的Web爬行器第21-49页
   ·领域相关的网络爬虫第21-24页
     ·爬虫结构的设计第21-24页
     ·爬虫的技术实现路径图第24页
   ·域名解析器的设计第24-26页
   ·并行抓取策略的实现第26-29页
     ·多线程技术第26-27页
     ·非阻塞套接字技术第27-29页
   ·URL调度实现第29-38页
     ·基于概率模型的启发式度量规则第29-32页
     ·URL调度策略及数据结构第32-33页
     ·基于最佳优先搜索的隧道技术第33-38页
   ·页面存储技术的实现第38-44页
     ·页面存储第38-39页
     ·布尔查询与反向索引技术第39-41页
     ·页面存储库更新第41-42页
     ·索引压缩技术第42-44页
   ·其他相关技术实现第44-47页
     ·HTML分析模块第44-45页
     ·URL过滤模块第45-46页
     ·更新抓取实现策略第46-47页
     ·监测管理器的实现策略第47页
   ·本章小结第47-49页
第4章 Web文本分类器第49-60页
   ·文本分类原理第49-50页
   ·HTML文本的表示形式第50-52页
     ·向量空间模型(VSM)第50-51页
     ·评估页面与用户查询主题的相关度第51-52页
   ·朴素贝叶斯分类器第52-56页
     ·朴素贝叶斯分类器第52-54页
     ·改进的朴素贝叶斯分类算法第54-56页
   ·本章小结及实验数据第56-60页
     ·文本分类实验第57-59页
     ·本章小结第59-60页
第5章 实验与数据分析第60-66页
   ·实验步骤第60-63页
     ·定义爬虫结构第60-61页
     ·实现爬虫算法第61-63页
   ·爬虫实验数据第63-65页
   ·实验结果分析第65-66页
第6章 总结和展望第66-68页
参考文献第68-73页
致谢第73-74页
攻读硕士期间发表的学术论文第74页

论文共74页,点击 下载论文
上一篇:船舶撞击桥墩的灾难三维仿真
下一篇:基于GIS-T中电子地图空间数据组织研究