| 致谢 | 第1-5页 |
| 摘要 | 第5-6页 |
| Abstract | 第6-7页 |
| 目录 | 第7-9页 |
| 图目录 | 第9-10页 |
| 表目录 | 第10-11页 |
| 第1章 绪论 | 第11-16页 |
| ·背景 | 第11-12页 |
| ·搜索引擎的发展历史 | 第12页 |
| ·搜索引擎的未来 | 第12-13页 |
| ·深度网络的现状 | 第13-14页 |
| ·本文的工作和组织 | 第14-16页 |
| 第2章 相关技术的研究现状 | 第16-33页 |
| ·搜索引擎基本技术 | 第16-17页 |
| ·网络爬虫技术 | 第17-21页 |
| ·网络爬虫的基本特征 | 第18页 |
| ·网络爬虫的基本架构 | 第18-19页 |
| ·分布式爬虫的设计 | 第19-21页 |
| ·文本聚类技术 | 第21-30页 |
| ·聚类算法在信息检索中的应用现状 | 第22-23页 |
| ·聚类算法理论发展现状 | 第23-27页 |
| ·聚类算法的结果评估指标 | 第27-30页 |
| ·深度网络信息获取技术 | 第30-32页 |
| ·深度网络信息获取的基本流程框架 | 第30-31页 |
| ·基于运行时查询变换的技术 | 第31-32页 |
| ·基于深度网络表面化的技术 | 第32页 |
| ·本章小结 | 第32-33页 |
| 第3章 基于最优查询的深度网络爬取 | 第33-51页 |
| ·页面预处理 | 第33-37页 |
| ·系统的总体结构 | 第33-34页 |
| ·HTML页面中的表单分析 | 第34-35页 |
| ·非搜索性表单的过滤 | 第35-37页 |
| ·网页的聚类 | 第37-44页 |
| ·网页间相似度的计算 | 第38-41页 |
| ·使用K-means算法对网页进行聚类 | 第41-42页 |
| ·利用网页间链接信息对聚类结果进行改进 | 第42-44页 |
| ·最优查询的生产及提交 | 第44-50页 |
| ·类别型文本框的建模及识别 | 第45-48页 |
| ·通用型文本框的最优查询生产 | 第48-50页 |
| ·本章小结 | 第50-51页 |
| 第4章 ZVerticalSearch系统设计与测试 | 第51-69页 |
| ·设计思想 | 第51-52页 |
| ·体系结构 | 第52-61页 |
| ·网络蜘蛛 | 第53-56页 |
| ·URL链接容器 | 第56-58页 |
| ·最优查询词库 | 第58-59页 |
| ·网页解析及索引处理模块 | 第59-61页 |
| ·算法实验 | 第61-68页 |
| ·聚类算法测试 | 第61-66页 |
| ·最优查询提交测试 | 第66-68页 |
| ·本章小结 | 第68-69页 |
| 第5章 总结与展望 | 第69-71页 |
| ·总结 | 第69页 |
| ·展望 | 第69-71页 |
| 参考文献 | 第71-75页 |
| 攻读硕士学位期间主要的研究成果 | 第75页 |