一个Web本体的采集系统

摘要	第1-5页
Abstract	第5-8页
第一章前言	第8-13页
·研究背景	第8-9页
·本文研究工作的缘起、意义及具体任务	第9-11页
·本体的应用	第9-10页
·本文研究工作的意义及具体研究内容	第10-11页
·相关领域的研究现状	第11页
·本文的内容安排	第11-13页
第二章 Web 信息采集原理及相关技术	第13-29页
·信息检索与搜索引擎概述	第13-16页
·信息检索	第13-14页
·搜索引擎	第14-16页
·Web 爬虫及聚焦爬虫概述	第16-17页
·聚焦爬虫搜索目标描述	第17页
·Web 主题分布特性及聚焦爬虫搜索策略	第17-18页
·主题分布特性	第17-18页
·广度优先策略	第18页
·最佳优先策略	第18页
·网页分析算法	第18-21页
·基于网络拓扑的网页分析算法	第18-19页
·基于网页内容的网页分析算法	第19-21页
·用户协作网页分析算法	第21页
·基于领域概念定制的网页评价算法	第21页
·聚焦爬虫系统结构	第21-24页
·基于分类器的聚焦爬虫	第21-22页
·基于数据抽取器的聚焦爬虫	第22-23页
·基于用户行为学习的聚焦爬虫	第23-24页
·向量空间模型（VSM）基础	第24-26页
·主要概念	第24页
·项的选择	第24-25页
·特征抽取	第25页
·特征权计算	第25-26页
·HTTP 协议基础	第26-29页
·HTTP 的工作方式	第26页
·Web 客户	第26-27页
·Web 服务器	第27-29页
第三章基于聚焦爬虫的本体搜索技术	第29-35页
·Web 本体分布特性	第29-30页
·基本搜索过程	第30-32页
·URL Frontier 与URL 的来源	第30-31页
·Web 访问	第31页
·页面处理	第31-32页
·链接评价	第32-34页
·评价方法	第32-33页
·基于VSM 的链接评价	第33-34页
·对聚焦搜索的增强	第34-35页
第四章系统分析与设计	第35-42页
·系统概述	第35页
·需求分析	第35-36页
·概要设计	第36-37页
·详细设计	第37-42页
·系统功能模块	第37-38页
·核心功能的逻辑流程	第38-40页
·主要设计类图	第40-42页
第五章系统实现关键技术	第42-50页
·HTML 文档处理	第42-43页
·HTML 文档结构	第42页
·基本处理思路	第42-43页
·链接评价的实现	第43-45页
·链接评价过程	第44页
·VSM 链接评价的实现	第44-45页
·多线程的控制与实现	第45-50页
·线程数量的增减控制	第46-47页
·URL 的派发	第47-50页
第六章总结与展望	第50-54页
·WebOnto Crawler 的搜索方法评价	第50-52页
·Web 搜索的必要性分析	第50-51页
·链接评价方法合理性分析与性能评价	第51-52页
·WebOnto Crawler 与相关研究的比较	第52页
·本文工作总结	第52-53页
·展望	第53-54页
参考文献	第54-56页
致谢	第56-57页
作者简介	第57页