搜索引擎中网络爬虫技术研究

摘要	第1-4页
Abstract	第4-8页
第一章绪论	第8-14页
·引言	第8页
·国内外研究现状	第8-11页
·搜索引擎的发展史	第8-10页
·国内搜索引擎的发展	第10-11页
·课题研究意义	第11页
·论文的研究内容	第11-12页
·论文结构	第12-14页
第二章搜索引擎基础	第14-36页
·HTML和HTTP基础	第14-16页
·搜索引擎概述	第16-17页
·网络爬虫技术概述	第17-18页
·网络爬虫设计涉及的技术	第18-24页
·DNS解析扩展	第18-20页
·并行存取	第20-21页
·机器人排斥标准	第21-23页
·避免网页的重复收集	第23页
·搜集友好性	第23-24页
·网络的动态性	第24页
·预处理子系统	第24-32页
·索引网页库	第24-26页
·网页净化	第26-27页
·网页消重	第27-28页
·内容抽取	第28页
·中文分词技术	第28-30页
·索引建立	第30-32页
·查询服务子系统	第32-34页
·查询服务的系统结构	第32-33页
·检索器	第33-34页
·本章小结	第34-36页
第三章网络爬虫的搜集策略	第36-48页
·网页重要程度的指标	第36-37页
·网页的搜集策略	第37-43页
·基于立即回报价值评价的搜索策略	第37-42页
·基于未来回报价值评价的搜索策略	第42-43页
·改进的网页搜集策略	第43-45页
·理论基础	第43-45页
·算法实现	第45页
·本章小结	第45-48页
第四章网络爬虫的系统设计	第48-78页
·网络爬虫的架构	第48-49页
·网络爬虫的核心算法设计	第49-55页
·网页多线程抓取机制	第49-50页
·网页调度算法	第50-51页
·URL去重机制	第51-53页
·汉字的码制转换	第53-55页
·网络爬虫的主要数据结构	第55-61页
·元数据	第55-56页
·网页内容	第56-57页
·URL	第57-59页
·链接结构	第59页
·DNS缓存	第59-61页
·网络爬虫的详细功能设计	第61-65页
·网页抓取控制器	第61-62页
·URL提取器	第62-64页
·URL解析器	第64页
·优先级计算器	第64-65页
·网页的维护与更新	第65-72页
·网页的变化模型	第65-68页
·对网页变化进行估计	第68-70页
·数据更新策略	第70-71页
·更新算法	第71-72页
·实验与结论	第72-77页
·试验设备情况	第72页
·性能测试	第72-76页
·用户接口界面	第76-77页
·本章小结	第77-78页
第五章总结与展望	第78-80页
·论文总结	第78页
·展望	第78-80页
致谢	第80-82页
参考文献	第82-86页
读研期间研究成果	第86页