首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于广度优先的主题爬虫的设计与实现

摘要第1-5页
Abstract第5-6页
第一章 绪论第6-9页
   ·网络爬虫的研究现状第6页
   ·网络爬虫存在的问题第6-7页
   ·本文的主要工作第7-8页
   ·本文的篇章结构第8-9页
第二章 网络搜索技术第9-27页
   ·本文技术设计思路第9-10页
   ·网络搜索程序概述第10-11页
   ·网络搜索中的隧道现象第11-13页
     ·隧道现象简介第11页
     ·隧道现象的一般解决策略第11-13页
   ·暗网络第13-16页
     ·暗网络简介第13-14页
     ·暗网分类第14页
     ·暗网的处理方法第14-16页
   ·网页内容分析第16-19页
     ·WEB页面的类型分析第16-17页
     ·WEB页面的表示分析第17-19页
   ·WEB页面分类模型第19-22页
     ·WEB页面分类模型第20页
     ·加权均衡的WEB页面分类第20-21页
     ·ICTCLAS简介第21-22页
   ·文本分析模块需求分析第22-23页
     ·文本分词功能第22页
     ·特征提取功能第22-23页
   ·开源爬虫第23-25页
   ·本文的工作流程第25-27页
第三章 广度优先主题爬虫的需求分析第27-41页
   ·主题爬虫的需求分析第27-28页
   ·主题爬虫的需求建模第28-29页
   ·网页爬取模块需求分析第29-31页
   ·URL的消重的需求分析第31-38页
     ·标记树的建立流程第34-35页
     ·文和超级链接的提取流程第35-38页
   ·页面存储模块的需求分析第38-39页
   ·Nutch软件第39-41页
第四章 基于广度优先主题爬虫的设计实现第41-56页
   ·网络搜索程序的总体架构第41页
   ·广度优先搜索方案实现第41-43页
     ·广度优先搜索算法第42页
     ·算法实现第42-43页
   ·网络搜索程序的主要数据结构第43-45页
     ·元数据第43-44页
     ·WEB页面内容第44-45页
   ·DNS缓存模块第45-46页
   ·线程池工作模块第46-48页
   ·URL分析模块第48-49页
   ·数据库设计第49-51页
   ·分词模块第51-53页
   ·基于广度优先方案搜索程序的特点第53-56页
第五章 结论第56-59页
   ·同类程序比较第56-57页
   ·不足与展望第57-59页
参考文献第59-61页
致谢第61-62页

论文共62页,点击 下载论文
上一篇:物流运输管理系统的设计与开发
下一篇:基于IP/DVB技术的催费系统的设计与实现