首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

搜索引擎中Crawler的设计、实现与扩展优化

摘要第1-5页
ABSTRACT第5-10页
第一章 绪论第10-16页
   ·课题背景第10页
   ·搜索引擎的概念第10页
   ·搜索引擎的发展历史第10-14页
   ·国内外研究现状与未来趋势第14-15页
   ·工作意义和论文安排第15-16页
第二章 搜索引擎综合研究分析第16-29页
   ·搜索引擎的分类第16-18页
     ·基于网络爬虫的搜索引擎第16-17页
     ·基于目录的搜索引擎第17页
     ·元搜索引擎第17-18页
   ·搜索引擎的结构分析第18-19页
   ·搜索引擎的原理分析第19-20页
   ·搜索引擎的关键技术分析第20-28页
     ·Index 技术第20页
     ·search 技术第20页
     ·网页爬取技术第20-21页
     ·用户UI第21页
     ·网页质量评估方法第21-23页
       ·PageRank 算法第21-22页
       ·HITS 算法及其变种第22-23页
     ·词法分析理论第23-24页
     ·中文分词技术第24页
     ·文件倒排技术第24-27页
     ·Boolean 理论第27-28页
   ·本章小结第28-29页
第三章 网页爬虫子系统的设计、实现与优化第29-68页
   ·设计目标第29页
   ·相关背景知识第29-35页
     ·超文本传输协议第29-31页
     ·统一资源定位第31-32页
     ·HTML 页面分析第32-35页
       ·HTML 中的标签第32-34页
       ·页面链接的提取第34-35页
   ·子系统实现的功能第35-36页
   ·系统流程与核心功能封装第36-52页
     ·统一资源定位设计与封装第37-40页
       ·问题抽象第37页
       ·细节描述第37-40页
     ·页面解析设计与封装第40-42页
       ·问题抽象第40页
       ·细节描述第40-42页
     ·网页下载设计与封装第42-45页
       ·问题抽象第42页
       ·细节描述第42-45页
     ·磁盘文件读写的设计与封装第45页
       ·问题抽象第45页
       ·细节描述第45页
     ·网络爬虫的设计与封装第45-52页
       ·问题抽象第45-46页
       ·细节描述第46-50页
       ·多线程下载第50-52页
   ·扩展与优化第52-66页
     ·系统的增量式扩展及其实现第52-56页
       ·增量式模型第52-54页
       ·增量式实现第54-56页
     ·分布式扩展及其实现第56-59页
       ·下载结点的扩展第56-57页
       ·控制协调结点第57-58页
       ·下载结点的任务分配第58-59页
     ·磁盘存储扩展第59-62页
       ·存储框架扩展方案第59-61页
       ·数据恢复初探第61-62页
     ·网页权值计算第62-66页
       ·PageRank 算法概述第62-64页
       ·PageRank 在系统中的实现第64-66页
     ·搜索算法及其优化第66页
   ·本章小结第66-68页
第四章 索引器与搜索器的设计第68-73页
   ·索引器的设计第68-71页
     ·设计流程第68页
     ·正文提取第68-69页
     ·分词第69-71页
     ·创建正、反向索引文件第71页
   ·搜索器的设计第71-72页
     ·布尔查询第71-72页
     ·搜索倒排表形成结果第72页
   ·本章小结第72-73页
第五章 系统测试与分析第73-76页
   ·单主机多线程爬行测试第73页
   ·分布式爬行测试第73-74页
   ·单机与分布式的比较第74页
   ·增量式爬行命中率测试第74-75页
   ·本章小结第75-76页
第六章 总结第76-78页
   ·总结第76页
   ·进一步的工作第76-78页
致谢第78-79页
参考文献第79-82页
作者攻硕期间取得的成果第82-83页

论文共83页,点击 下载论文
上一篇:无源唤醒有源待机低功耗RFID系统分析与设计
下一篇:移动阴影检测抑制算法研究及在智能视频监控系统中的实现