摘要 | 第4-6页 |
Abstract | 第6-7页 |
第1章 绪论 | 第15-27页 |
1.1 互联网信息抓取的应用背景 | 第16-18页 |
1.2 主题抓取的研究内容 | 第18-23页 |
1.2.1 主题抓取问题的形式化描述 | 第19-21页 |
1.2.2 联网主题信息抓取挑战 | 第21-23页 |
1.3 主题信息抓取的研究现状 | 第23-26页 |
1.4 本文的组织结构 | 第26-27页 |
第2章 相关研究 | 第27-46页 |
2.1 主题描述子的设计 | 第27-31页 |
2.1.1 基于关键词的主题描述 | 第27-28页 |
2.1.2 基于本体的主题描述 | 第28-30页 |
2.1.3 基于示例页面的主题描述 | 第30-31页 |
2.2 网页主题判断方法 | 第31-40页 |
2.2.1 网页特征建模 | 第31-33页 |
2.2.2 网页预处理 | 第33-35页 |
2.2.3 基于关键词匹配的主题判断 | 第35-38页 |
2.2.4 基于分类算法的主题判断 | 第38-40页 |
2.3 主题抓取策略 | 第40-44页 |
2.3.1 基于邻近节点主题相关性预测算法 | 第41-42页 |
2.3.2 基于网络结构的链接重要性预测 | 第42-44页 |
2.3.3 基于用户浏览模式的链接主题相关性预测 | 第44页 |
2.4 评估方法 | 第44-45页 |
2.5 本章小结 | 第45-46页 |
第3章 基于主题知识库的互联网信息抓取框架 | 第46-65页 |
3.1 面向主题的互联网信息抓取特点 | 第46-50页 |
3.1.1 主题需求的开放性 | 第46-47页 |
3.1.2 主题聚焦的层次性 | 第47-49页 |
3.1.3 主题信息的局部性 | 第49-50页 |
3.2 基于主题知识库的互联网信息抓取框架 | 第50-53页 |
3.2.1 传统主题抓取框架 | 第50-51页 |
3.2.2 TKWC框架特点 | 第51-53页 |
3.3 主题知识库的作用与构成 | 第53-56页 |
3.3.1 主题知识库的作用 | 第53-54页 |
3.3.2 主题知识库的构成 | 第54-56页 |
3.4 主题知识的学习演化 | 第56-59页 |
3.4.1 基于网页内容的主题词集抽取 | 第56-57页 |
3.4.2 基于外部知识库的主题扩展 | 第57-59页 |
3.5 基于主题知识库的网页主题判断 | 第59-61页 |
3.5.1 基于主题知识库的网页主题判断方法 | 第59-60页 |
3.5.2 基于主题知识库的网页主题判断优势 | 第60-61页 |
3.6 主题富饶域挖掘 | 第61-63页 |
3.6.1 主题富饶域的定义 | 第61页 |
3.6.2 主题富饶域的类型 | 第61-63页 |
3.6.3 主题富饶域挖掘的优势 | 第63页 |
3.7 本章小结 | 第63-65页 |
第4章 基于稳定词集的主题需求封闭方法 | 第65-86页 |
4.1 引言 | 第65-66页 |
4.2 主题抓取系统中的主题表达和获取方式 | 第66-68页 |
4.3 基于稳定词集的主题需求封闭方法 | 第68-72页 |
4.3.1 相关定义 | 第68-69页 |
4.3.2 基于主题词集的主题需求封闭流程 | 第69-72页 |
4.4 基于迭代式扩展-过滤框架的稳定词集构造方法 | 第72-79页 |
4.4.1 词集扩展方法 | 第73-77页 |
4.4.2 主题候选词集过滤 | 第77-79页 |
4.5 实验与讨论 | 第79-85页 |
4.5.1 主题词集扩展准确度 | 第80页 |
4.5.2 候选词集过滤准确度与滤出率 | 第80-81页 |
4.5.3 主题词集扩展收敛性 | 第81-83页 |
4.5.4 扩展算法敏感性 | 第83-85页 |
4.6 本章小结 | 第85-86页 |
第5章 基于本体的主题网页抓取 | 第86-105页 |
5.1 研究背景 | 第86-88页 |
5.2 相关研究 | 第88-94页 |
5.2.1 基于本体的主题爬虫 | 第88-91页 |
5.2.2 网页特征降维方法 | 第91-94页 |
5.3 问题定义 | 第94页 |
5.4 基于本体的网页主题判断(OTRD)算法 | 第94-100页 |
5.4.1 基于本体的网页主题降维 | 第95-98页 |
5.4.2 网页结构特征权重分配 | 第98页 |
5.4.3 基于单类SVM的主题模型训练 | 第98-100页 |
5.4.4 基于单类SVM的主题判断 | 第100页 |
5.5 基于OTRD的主题网页抓取 | 第100-101页 |
5.6 实验与评估 | 第101-103页 |
5.6.1 实验方案 | 第101页 |
5.6.2 实验结果与分析 | 第101-103页 |
5.7 本章小结 | 第103-105页 |
第6章 基于主题富饶域的抓取策略 | 第105-122页 |
6.1 引言 | 第105-106页 |
6.2 相关研究 | 第106-108页 |
6.3 网页主题聚焦特征 | 第108-110页 |
6.4 基于主题富饶域的抓取算法 | 第110-117页 |
6.4.1 相关定义 | 第110-111页 |
6.4.2 互联网主题域模型 | 第111-112页 |
6.4.3 主题富饶域优先算法 | 第112-113页 |
6.4.4 链接主题分析 | 第113-114页 |
6.4.5 主题域转移规则 | 第114-115页 |
6.4.6 URL选取策略 | 第115-117页 |
6.5 实验与评估 | 第117-121页 |
6.5.1 实验方案及运行参数 | 第117页 |
6.5.2 实验结果与分析 | 第117-121页 |
6.6 本章小结 | 第121-122页 |
第7章 总结与展望 | 第122-125页 |
7.1 论文主要工作与贡献 | 第122-123页 |
7.2 未来研究展望 | 第123-125页 |
参考文献 | 第125-137页 |
攻读博士学位期间主要的研究成果 | 第137-138页 |
致谢 | 第138页 |