首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

海量网页搜集系统的设计

中文摘要第1-6页
ABSTRACT第6-9页
第1章 引言第9-13页
   ·研究背景第9-11页
   ·研究方案第11-12页
   ·论文结构第12-13页
第2章 搜索引擎相关知识概述第13-23页
   ·搜索引擎简介第13-14页
   ·搜索引擎的分类第14-16页
   ·基于爬虫的搜索引擎结构第16-19页
   ·HTML语言介绍第19页
   ·网页净化第19-21页
   ·网页预处理简介第21-22页
     ·信息预处理概述第21页
     ·简单的预处理技术第21-22页
   ·本章小结第22-23页
第3章 爬虫的体系结构第23-29页
   ·爬虫的前提规范第23-24页
   ·Web组织结构和爬虫的搜集策略第24-25页
   ·HTTP协议工作过程第25-26页
   ·网页数据库维护的策略第26-27页
   ·集中式爬虫的搜集效率第27页
   ·分布式爬虫的设计目标第27-28页
   ·分布式策略第28-29页
第4章 海量网页搜集系统的设计第29-41页
   ·原始网页预处理的策略第29-30页
     ·网页预处理实现中的巴科斯范式第29页
     ·网页预处理中的IE对HTML标签的解析方法第29-30页
   ·爬虫的算法第30-31页
   ·Bloom Filter算法第31-33页
   ·分裂式Bloom Filter策略第33-35页
   ·哈希表的查找算法第35-36页
   ·URL顺序表转化策略第36-37页
   ·基于哈希的URL存在性判断第37页
   ·Bloom Filter的误称率第37-39页
     ·Bloom Filter的误称率的推导第37-38页
     ·Bloom Filter误称率的估计第38-39页
   ·本章小结第39-41页
第5章 海量网页搜集系统的实现第41-47页
   ·海量网页搜集系统网页预处理的实现第41页
   ·爬虫算法的实现第41-43页
   ·Bloom filter算法的实现第43页
   ·分裂式Bloom filter算法的实现第43-44页
   ·哈希表查找的实现第44-45页
   ·本章小结第45-47页
第6章 系统测试结果与分析第47-53页
   ·用户交互前台的性能测试第47-48页
   ·单线程爬虫性能测试结果与分析第48-50页
   ·网页预处理算法测试结果与分析第50页
   ·测定网页中纯正文内容的比例测试结果与分析第50-51页
   ·URL顺序表的效率测试结果与分析第51页
   ·本章小结第51-53页
第7章 总结与展望第53-55页
参考文献第55-59页
致谢第59页

论文共59页,点击 下载论文
上一篇:高职院校三评信息管理系统的设计与实现
下一篇:隔离网络下的数据交换系统的设计与实现