首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

搜索引擎中网络爬虫技术研究

摘要第1-4页
Abstract第4-8页
第一章 绪论第8-14页
   ·引言第8页
   ·国内外研究现状第8-11页
     ·搜索引擎的发展史第8-10页
     ·国内搜索引擎的发展第10-11页
   ·课题研究意义第11页
   ·论文的研究内容第11-12页
   ·论文结构第12-14页
第二章 搜索引擎基础第14-36页
   ·HTML和HTTP基础第14-16页
   ·搜索引擎概述第16-17页
   ·网络爬虫技术概述第17-18页
   ·网络爬虫设计涉及的技术第18-24页
     ·DNS解析扩展第18-20页
     ·并行存取第20-21页
     ·机器人排斥标准第21-23页
     ·避免网页的重复收集第23页
     ·搜集友好性第23-24页
     ·网络的动态性第24页
   ·预处理子系统第24-32页
     ·索引网页库第24-26页
     ·网页净化第26-27页
     ·网页消重第27-28页
     ·内容抽取第28页
     ·中文分词技术第28-30页
     ·索引建立第30-32页
   ·查询服务子系统第32-34页
     ·查询服务的系统结构第32-33页
     ·检索器第33-34页
   ·本章小结第34-36页
第三章 网络爬虫的搜集策略第36-48页
   ·网页重要程度的指标第36-37页
   ·网页的搜集策略第37-43页
     ·基于立即回报价值评价的搜索策略第37-42页
     ·基于未来回报价值评价的搜索策略第42-43页
   ·改进的网页搜集策略第43-45页
     ·理论基础第43-45页
     ·算法实现第45页
   ·本章小结第45-48页
第四章 网络爬虫的系统设计第48-78页
   ·网络爬虫的架构第48-49页
   ·网络爬虫的核心算法设计第49-55页
     ·网页多线程抓取机制第49-50页
     ·网页调度算法第50-51页
     ·URL去重机制第51-53页
     ·汉字的码制转换第53-55页
   ·网络爬虫的主要数据结构第55-61页
     ·元数据第55-56页
     ·网页内容第56-57页
     ·URL第57-59页
     ·链接结构第59页
     ·DNS缓存第59-61页
   ·网络爬虫的详细功能设计第61-65页
     ·网页抓取控制器第61-62页
     ·URL提取器第62-64页
     ·URL解析器第64页
     ·优先级计算器第64-65页
   ·网页的维护与更新第65-72页
     ·网页的变化模型第65-68页
     ·对网页变化进行估计第68-70页
     ·数据更新策略第70-71页
     ·更新算法第71-72页
   ·实验与结论第72-77页
     ·试验设备情况第72页
     ·性能测试第72-76页
     ·用户接口界面第76-77页
   ·本章小结第77-78页
第五章 总结与展望第78-80页
   ·论文总结第78页
   ·展望第78-80页
致谢第80-82页
参考文献第82-86页
读研期间研究成果第86页

论文共86页,点击 下载论文
上一篇:移动存储设备安全管理策略的研究
下一篇:基于Web的通用虚拟实验平台设计与实现