摘要 | 第1-4页 |
ABSTRACT | 第4-8页 |
第一章 绪论 | 第8-12页 |
·课题研究的背景 | 第8-9页 |
·研究现状 | 第9-11页 |
·本文的主要研究内容 | 第11页 |
·本文的组织结构安排 | 第11-12页 |
第二章 搜索引擎技术概述 | 第12-22页 |
·搜索引擎基本要求 | 第12页 |
·搜索引擎的分类 | 第12-13页 |
·搜索引擎的体系结构 | 第13-17页 |
·网络爬虫 | 第14-16页 |
·索引 | 第16页 |
·信息检索 | 第16页 |
·用户接口 | 第16-17页 |
·聚焦爬虫概述 | 第17-21页 |
·主题式垂直搜索引擎概述 | 第17页 |
·聚焦爬虫的特点 | 第17-18页 |
·聚焦爬虫的工作流程 | 第18-19页 |
·聚焦爬虫系统体系结构 | 第19-21页 |
·本章小结 | 第21-22页 |
第三章 聚焦爬虫技术的研究 | 第22-32页 |
·主题描述 | 第22页 |
·主题WEB 页面分布特征 | 第22-24页 |
·中心页面特性 | 第23页 |
·主题关联特性 | 第23-24页 |
·主题聚集特性 | 第24页 |
·隧道特性 | 第24页 |
·网页分析算法 | 第24-31页 |
·基于链接结构的网页分析算法 | 第25-27页 |
·基于内容的网页分析算法 | 第27-28页 |
·聚焦爬虫的网页爬行策略 | 第28-31页 |
·本章小结 | 第31-32页 |
第四章 基于综合爬行策略聚焦爬虫系统的设计与实现. | 第32-51页 |
·基于综合爬行策略的聚焦爬虫系统的体系结构 | 第32-33页 |
·初始种子网页的选取 | 第33页 |
·CRAWLER 剖析 | 第33-39页 |
·HTTP/HTTPS 下载模块 | 第34-35页 |
·DNS 解析器 | 第35页 |
·下载模块控制器 | 第35-36页 |
·Crawler 任务管理器 | 第36-37页 |
·机器人拒绝协议 | 第37-39页 |
·URL 的提取 | 第39页 |
·WEB 内容分析 | 第39页 |
·WEB 数据库 | 第39-40页 |
·基于超链接结构和内容的综合爬行策略 | 第40-46页 |
·超链接结构价值的计算 | 第40-41页 |
·主题特征词库构建 | 第41-42页 |
·主题特征向量的计算 | 第42-43页 |
·内容的主题相关度 | 第43-44页 |
·基于网页综合价值的爬行算法 | 第44-46页 |
·超文本分类系统 | 第46页 |
·实验结果与分析 | 第46-50页 |
·性能评价方法 | 第47页 |
·多种主题上的实验结果 | 第47-48页 |
·初始样本数量的影响 | 第48-49页 |
·综合价值中因子K 的影响 | 第49-50页 |
·本章小结 | 第50-51页 |
第五章 结论与展望 | 第51-53页 |
·结论 | 第51页 |
·展望 | 第51-53页 |
致谢 | 第53-54页 |
参考文献 | 第54-58页 |
附录:作者在攻读硕士学位期间发表的论文 | 第58页 |