摘要 | 第1-6页 |
Abstract | 第6-10页 |
1 绪论 | 第10-18页 |
·课题研究的背景和意义 | 第11-12页 |
·国内外研究现状 | 第12-17页 |
·本文的主要研究内容及组织结构 | 第17-18页 |
2 相关知识背景 | 第18-26页 |
·爬行虫相关知识背景 | 第18-21页 |
·通用爬行虫 | 第19-20页 |
·主题爬行虫 | 第20-21页 |
·形式概念分析 | 第21-25页 |
·形式概念分析理论基础 | 第22-25页 |
·构建概念格算法 | 第25页 |
·本章小结 | 第25-26页 |
3 基于领域本体的语义相关度度量 | 第26-34页 |
·语义相关度 | 第26-27页 |
·语义相关度度量 | 第27-29页 |
·基于编辑距离的相关度度量方法 | 第27-28页 |
·基于语料库的相关度度量方法 | 第28-29页 |
·基于词典或本体的相关度度量方法 | 第29页 |
·WordNet 与语义相关度 | 第29-31页 |
·WordNet 概述 | 第29-31页 |
·基于 WordNet 的语义相关度 | 第31页 |
·本文采用的语义相关度度量 | 第31-33页 |
·本章小结 | 第33-34页 |
4 基于领域本体和相似概念背景图的主题爬行策略 | 第34-42页 |
·链接分析概述 | 第34-35页 |
·基于领域本体和相似概念背景图(SCCG)的主题爬行虫 | 第35-41页 |
·收集主题数据 | 第36-37页 |
·内容处理 | 第37页 |
·构建相似概念背景图 | 第37-39页 |
·计算锚文本相关度 | 第39-40页 |
·预测优先级分值 | 第40-41页 |
·本章小结 | 第41-42页 |
5 实验及结果分析 | 第42-59页 |
·系统实现 | 第42-45页 |
·开发环境 | 第42-45页 |
·实验过程 | 第45-54页 |
·数据收集 | 第45-46页 |
·收集主题数据 | 第46-47页 |
·文本内容处理 | 第47-52页 |
·构建相似概念背景图 | 第52-53页 |
·预测 URLs 优先级分值 | 第53-54页 |
·实验结果对比分析 | 第54-58页 |
·本章小结 | 第58-59页 |
结论与展望 | 第59-60页 |
参考文献 | 第60-65页 |
攻读硕士学位期间发表的论文及科研成果 | 第65-66页 |
致谢 | 第66-67页 |