深度网络信息爬取关键技术研究与实现

致谢	第1-5页
摘要	第5-6页
Abstract	第6-7页
目录	第7-9页
图目录	第9-10页
表目录	第10-11页
第1章绪论	第11-16页
·背景	第11-12页
·搜索引擎的发展历史	第12页
·搜索引擎的未来	第12-13页
·深度网络的现状	第13-14页
·本文的工作和组织	第14-16页
第2章相关技术的研究现状	第16-33页
·搜索引擎基本技术	第16-17页
·网络爬虫技术	第17-21页
·网络爬虫的基本特征	第18页
·网络爬虫的基本架构	第18-19页
·分布式爬虫的设计	第19-21页
·文本聚类技术	第21-30页
·聚类算法在信息检索中的应用现状	第22-23页
·聚类算法理论发展现状	第23-27页
·聚类算法的结果评估指标	第27-30页
·深度网络信息获取技术	第30-32页
·深度网络信息获取的基本流程框架	第30-31页
·基于运行时查询变换的技术	第31-32页
·基于深度网络表面化的技术	第32页
·本章小结	第32-33页
第3章基于最优查询的深度网络爬取	第33-51页
·页面预处理	第33-37页
·系统的总体结构	第33-34页
·HTML页面中的表单分析	第34-35页
·非搜索性表单的过滤	第35-37页
·网页的聚类	第37-44页
·网页间相似度的计算	第38-41页
·使用K-means算法对网页进行聚类	第41-42页
·利用网页间链接信息对聚类结果进行改进	第42-44页
·最优查询的生产及提交	第44-50页
·类别型文本框的建模及识别	第45-48页
·通用型文本框的最优查询生产	第48-50页
·本章小结	第50-51页
第4章 ZVerticalSearch系统设计与测试	第51-69页
·设计思想	第51-52页
·体系结构	第52-61页
·网络蜘蛛	第53-56页
·URL链接容器	第56-58页
·最优查询词库	第58-59页
·网页解析及索引处理模块	第59-61页
·算法实验	第61-68页
·聚类算法测试	第61-66页
·最优查询提交测试	第66-68页
·本章小结	第68-69页
第5章总结与展望	第69-71页
·总结	第69页
·展望	第69-71页
参考文献	第71-75页
攻读硕士学位期间主要的研究成果	第75页