目录 | 第1-5页 |
摘要 | 第5-7页 |
ABSTRACT | 第7-9页 |
图目录 | 第9-11页 |
表目录 | 第11-12页 |
第一章. 绪论 | 第12-26页 |
·本文研究背景 | 第12-13页 |
·垂直搜索引擎的的研究现状 | 第13-23页 |
·基于主题的定向搜索概述 | 第14-15页 |
·深度Web的领域数据集成 | 第15-17页 |
·垂直搜索系统的性能指标 | 第17-19页 |
·面向领域的Web数据挖掘及可视化展示 | 第19-23页 |
·本文的研究目标和主要贡献 | 第23-24页 |
·本文结构 | 第24-26页 |
第二章. Web信息采集与搜索引擎基础 | 第26-38页 |
·基本概念 | 第26-31页 |
·HTTP协议 | 第26-29页 |
·HTML语言 | 第29页 |
·超文本(Hypertext)与WWW | 第29-30页 |
·WWW的体系结构和信息资源 | 第30-31页 |
·Web信息采集的基本原理 | 第31页 |
·Web信息采集系统的基本组成 | 第31-33页 |
·搜索引擎与Web信息采集 | 第33-36页 |
·搜索引擎的分类 | 第33-34页 |
·搜索引擎的基本结构 | 第34-35页 |
·搜索引擎信息采集面临的挑战 | 第35-36页 |
·本章小结 | 第36-38页 |
第三章. 基于主题的Web信息采集 | 第38-52页 |
·国内外相关研究进展 | 第38-41页 |
·基于主题的Web信息采集原理 | 第41-43页 |
·采集策略 | 第41-42页 |
·基于主题的Web信息采集系统结构 | 第42-43页 |
·采集的主题问题 | 第43-50页 |
·Web网页文本的特点 | 第43-44页 |
·Web信息的主题目录 | 第44-45页 |
·主题词典和分词处理 | 第45-46页 |
·网页文本主题的识别 | 第46-50页 |
·本章小结 | 第50-52页 |
第四章. 超链接主题预测算法UTP | 第52-66页 |
·URL主题相关度的决定因素 | 第52-57页 |
·利用父网页的主题相关度预测URL的主题 | 第53页 |
·利用锚点文本和扩展锚点文本预测URL的主题 | 第53-55页 |
·利用Web链接结构信息预测URL的主题 | 第55-57页 |
·超链接主题预测算法——UTP算法 | 第57-65页 |
·UTP算法的几个相关定义及定理 | 第57-58页 |
·UTP算法中主题相关度的考虑因素 | 第58-60页 |
·UTP算法的实现 | 第60-63页 |
·UTP算法同PageRank与HITS的比较 | 第63-65页 |
·本章小结 | 第65-66页 |
第五章. 深度Web的领域数据集成 | 第66-82页 |
·Deep Web的发现 | 第66-70页 |
·发现Deep Web | 第66-68页 |
·Deep Web的输入和输出接口 | 第68-70页 |
·Deep Web信息的提取 | 第70-76页 |
·Deep Web信息提取的DOM实现 | 第70-73页 |
·基于Browser控件的爬虫代理 | 第73-75页 |
·Deep Web信息采集系统的实现架构 | 第75-76页 |
·Deep Web数据的清洗 | 第76-80页 |
·基于WordNet的数据清洗 | 第77-79页 |
·Deep Web的页面消重 | 第79-80页 |
·本章小结 | 第80-82页 |
第六章. 基于Hadoop的垂直搜索引擎的系统架构及优化 | 第82-102页 |
·垂直搜索引擎的数据采集模块优化 | 第82-89页 |
·并行的Web Crawl | 第83-84页 |
·保持礼貌原则 | 第84-87页 |
·DNS解析优化 | 第87-88页 |
·避免陷入Spider Trap | 第88-89页 |
·高性能垂直搜索引擎的系统实现 | 第89-95页 |
·开源搜索引擎系统 | 第89-91页 |
·基于Nutch的垂直搜索引擎特点 | 第91-93页 |
·基于Nutch的垂直搜索改良 | 第93-95页 |
·垂直搜索引擎的查询优化 | 第95-101页 |
·Hadoop的分布式查询 | 第96-97页 |
·用户查询缓存机制 | 第97-99页 |
·查询优化的效果 | 第99-101页 |
·本章小结 | 第101-102页 |
第七章. Dolphin---一个垂直搜索引擎的实例 | 第102-120页 |
·学术搜索引擎系统的架构和数据 | 第103-107页 |
·系统的功能架构 | 第103-104页 |
·数据定向采集 | 第104-105页 |
·数据的除噪 | 第105-106页 |
·数据的存储和索引 | 第106-107页 |
·查询及结果展示 | 第107-119页 |
·查询结果的展现 | 第107-109页 |
·层次化数据聚类 | 第109-111页 |
·查询结果的外延扩展和排序改进 | 第111-119页 |
·本章小结 | 第119-120页 |
第八章. 总结和展望 | 第120-122页 |
·本文工作的总结 | 第120-121页 |
·未来工作的展望 | 第121-122页 |
参考文献 | 第122-130页 |
致谢 | 第130-131页 |
攻读博士学位期间发表文章 | 第131-132页 |