基于主题的互联网信息抓取研究

摘要	第4-6页
Abstract	第6-7页
第1章绪论	第15-27页
1.1 互联网信息抓取的应用背景	第16-18页
1.2 主题抓取的研究内容	第18-23页
1.2.1 主题抓取问题的形式化描述	第19-21页
1.2.2 联网主题信息抓取挑战	第21-23页
1.3 主题信息抓取的研究现状	第23-26页
1.4 本文的组织结构	第26-27页
第2章相关研究	第27-46页
2.1 主题描述子的设计	第27-31页
2.1.1 基于关键词的主题描述	第27-28页
2.1.2 基于本体的主题描述	第28-30页
2.1.3 基于示例页面的主题描述	第30-31页
2.2 网页主题判断方法	第31-40页
2.2.1 网页特征建模	第31-33页
2.2.2 网页预处理	第33-35页
2.2.3 基于关键词匹配的主题判断	第35-38页
2.2.4 基于分类算法的主题判断	第38-40页
2.3 主题抓取策略	第40-44页
2.3.1 基于邻近节点主题相关性预测算法	第41-42页
2.3.2 基于网络结构的链接重要性预测	第42-44页
2.3.3 基于用户浏览模式的链接主题相关性预测	第44页
2.4 评估方法	第44-45页
2.5 本章小结	第45-46页
第3章基于主题知识库的互联网信息抓取框架	第46-65页
3.1 面向主题的互联网信息抓取特点	第46-50页
3.1.1 主题需求的开放性	第46-47页
3.1.2 主题聚焦的层次性	第47-49页
3.1.3 主题信息的局部性	第49-50页
3.2 基于主题知识库的互联网信息抓取框架	第50-53页
3.2.1 传统主题抓取框架	第50-51页
3.2.2 TKWC框架特点	第51-53页
3.3 主题知识库的作用与构成	第53-56页
3.3.1 主题知识库的作用	第53-54页
3.3.2 主题知识库的构成	第54-56页
3.4 主题知识的学习演化	第56-59页
3.4.1 基于网页内容的主题词集抽取	第56-57页
3.4.2 基于外部知识库的主题扩展	第57-59页
3.5 基于主题知识库的网页主题判断	第59-61页
3.5.1 基于主题知识库的网页主题判断方法	第59-60页
3.5.2 基于主题知识库的网页主题判断优势	第60-61页
3.6 主题富饶域挖掘	第61-63页
3.6.1 主题富饶域的定义	第61页
3.6.2 主题富饶域的类型	第61-63页
3.6.3 主题富饶域挖掘的优势	第63页
3.7 本章小结	第63-65页
第4章基于稳定词集的主题需求封闭方法	第65-86页
4.1 引言	第65-66页
4.2 主题抓取系统中的主题表达和获取方式	第66-68页
4.3 基于稳定词集的主题需求封闭方法	第68-72页
4.3.1 相关定义	第68-69页
4.3.2 基于主题词集的主题需求封闭流程	第69-72页
4.4 基于迭代式扩展-过滤框架的稳定词集构造方法	第72-79页
4.4.1 词集扩展方法	第73-77页
4.4.2 主题候选词集过滤	第77-79页
4.5 实验与讨论	第79-85页
4.5.1 主题词集扩展准确度	第80页
4.5.2 候选词集过滤准确度与滤出率	第80-81页
4.5.3 主题词集扩展收敛性	第81-83页
4.5.4 扩展算法敏感性	第83-85页
4.6 本章小结	第85-86页
第5章基于本体的主题网页抓取	第86-105页
5.1 研究背景	第86-88页
5.2 相关研究	第88-94页
5.2.1 基于本体的主题爬虫	第88-91页
5.2.2 网页特征降维方法	第91-94页
5.3 问题定义	第94页
5.4 基于本体的网页主题判断(OTRD)算法	第94-100页
5.4.1 基于本体的网页主题降维	第95-98页
5.4.2 网页结构特征权重分配	第98页
5.4.3 基于单类SVM的主题模型训练	第98-100页
5.4.4 基于单类SVM的主题判断	第100页
5.5 基于OTRD的主题网页抓取	第100-101页
5.6 实验与评估	第101-103页
5.6.1 实验方案	第101页
5.6.2 实验结果与分析	第101-103页
5.7 本章小结	第103-105页
第6章基于主题富饶域的抓取策略	第105-122页
6.1 引言	第105-106页
6.2 相关研究	第106-108页
6.3 网页主题聚焦特征	第108-110页
6.4 基于主题富饶域的抓取算法	第110-117页
6.4.1 相关定义	第110-111页
6.4.2 互联网主题域模型	第111-112页
6.4.3 主题富饶域优先算法	第112-113页
6.4.4 链接主题分析	第113-114页
6.4.5 主题域转移规则	第114-115页
6.4.6 URL选取策略	第115-117页
6.5 实验与评估	第117-121页
6.5.1 实验方案及运行参数	第117页
6.5.2 实验结果与分析	第117-121页
6.6 本章小结	第121-122页
第7章总结与展望	第122-125页
7.1 论文主要工作与贡献	第122-123页
7.2 未来研究展望	第123-125页
参考文献	第125-137页
攻读博士学位期间主要的研究成果	第137-138页
致谢	第138页