致谢 | 第1-5页 |
摘要 | 第5-6页 |
Abstract | 第6-7页 |
目录 | 第7-9页 |
图目录 | 第9-10页 |
表目录 | 第10-11页 |
第1章 绪论 | 第11-16页 |
·背景 | 第11-12页 |
·搜索引擎的发展历史 | 第12页 |
·搜索引擎的未来 | 第12-13页 |
·深度网络的现状 | 第13-14页 |
·本文的工作和组织 | 第14-16页 |
第2章 相关技术的研究现状 | 第16-33页 |
·搜索引擎基本技术 | 第16-17页 |
·网络爬虫技术 | 第17-21页 |
·网络爬虫的基本特征 | 第18页 |
·网络爬虫的基本架构 | 第18-19页 |
·分布式爬虫的设计 | 第19-21页 |
·文本聚类技术 | 第21-30页 |
·聚类算法在信息检索中的应用现状 | 第22-23页 |
·聚类算法理论发展现状 | 第23-27页 |
·聚类算法的结果评估指标 | 第27-30页 |
·深度网络信息获取技术 | 第30-32页 |
·深度网络信息获取的基本流程框架 | 第30-31页 |
·基于运行时查询变换的技术 | 第31-32页 |
·基于深度网络表面化的技术 | 第32页 |
·本章小结 | 第32-33页 |
第3章 基于最优查询的深度网络爬取 | 第33-51页 |
·页面预处理 | 第33-37页 |
·系统的总体结构 | 第33-34页 |
·HTML页面中的表单分析 | 第34-35页 |
·非搜索性表单的过滤 | 第35-37页 |
·网页的聚类 | 第37-44页 |
·网页间相似度的计算 | 第38-41页 |
·使用K-means算法对网页进行聚类 | 第41-42页 |
·利用网页间链接信息对聚类结果进行改进 | 第42-44页 |
·最优查询的生产及提交 | 第44-50页 |
·类别型文本框的建模及识别 | 第45-48页 |
·通用型文本框的最优查询生产 | 第48-50页 |
·本章小结 | 第50-51页 |
第4章 ZVerticalSearch系统设计与测试 | 第51-69页 |
·设计思想 | 第51-52页 |
·体系结构 | 第52-61页 |
·网络蜘蛛 | 第53-56页 |
·URL链接容器 | 第56-58页 |
·最优查询词库 | 第58-59页 |
·网页解析及索引处理模块 | 第59-61页 |
·算法实验 | 第61-68页 |
·聚类算法测试 | 第61-66页 |
·最优查询提交测试 | 第66-68页 |
·本章小结 | 第68-69页 |
第5章 总结与展望 | 第69-71页 |
·总结 | 第69页 |
·展望 | 第69-71页 |
参考文献 | 第71-75页 |
攻读硕士学位期间主要的研究成果 | 第75页 |