摘要 | 第1-6页 |
ABSTRACT | 第6-8页 |
目录 | 第8-11页 |
第一章 绪论 | 第11-32页 |
·研究背景和意义 | 第11-15页 |
·Deep Web数据抽取与集成的研究进展与现状 | 第15-23页 |
·条件概率图学习模型及其在信息抽取中的应用 | 第23-30页 |
·本文的研究内容与章节安排 | 第30-32页 |
第二章 基于导航路径学习的领域Deep Web查询接口发现 | 第32-51页 |
·引言 | 第32-33页 |
·Deep Web查询表单聚焦爬行系统 | 第33-40页 |
·万维网的网站链接图模型 | 第33-36页 |
·QFormCollector的系统结构 | 第36-39页 |
·站间超链接搜索的实现 | 第39-40页 |
·基于序列超链接评价的网站内查询接口发现 | 第40-44页 |
·目标网页导航路径的概率图学习模型 | 第40-41页 |
·状态累计回报函数 | 第41-42页 |
·超链接评分函数 | 第42-43页 |
·网页爬行算法 | 第43-44页 |
·实验结果与分析 | 第44-50页 |
·系统运行效果图 | 第44-45页 |
·测试环境和使用的数据集 | 第45-46页 |
·表单爬虫的性能测试 | 第46-48页 |
·并行爬虫的效率测试 | 第48-50页 |
·小结 | 第50-51页 |
第三章 多特征融合的Deep Web查询表单分类 | 第51-64页 |
·引言 | 第51-53页 |
·Deep Web查询表单识别 | 第53-56页 |
·查询表单的领域分类 | 第56-57页 |
·实验结果与分析 | 第57-63页 |
·测试数据集 | 第57-59页 |
·评价指标 | 第59页 |
·查询表单识别结果 | 第59-61页 |
·查询表单的领域分类结果 | 第61-63页 |
·小结 | 第63-64页 |
第四章 异构领域Web查询接口模式匹配 | 第64-80页 |
·引言 | 第64-66页 |
·Web查询接口的抽取与表示 | 第66-72页 |
·查询接口的定义 | 第66-69页 |
·查询接口的抽取 | 第69-70页 |
·查询接口的理解 | 第70-72页 |
·基于层次序列条件随机场的异构Web查询接口模式匹配 | 第72-75页 |
·层次序列条件随机场模型 | 第72-73页 |
·模型的参数训练 | 第73-74页 |
·基于联合树的参数估计和推理 | 第74-75页 |
·实验结果与分析 | 第75-79页 |
·测试数据集 | 第75页 |
·评价指标 | 第75-76页 |
·实验结果 | 第76-79页 |
·小结 | 第79-80页 |
第五章 查询结果网页中Web记录的抽取与语义标注 | 第80-104页 |
·引言 | 第80-83页 |
·Web网页分割与动态数据区域的识别 | 第83-90页 |
·HTML网页的语法解析 | 第83-84页 |
·网页的区域分割 | 第84-87页 |
·动态数据区域的识别 | 第87-90页 |
·基于混合跳链条件随机场的Web记录联合抽取和语义标注 | 第90-98页 |
·混合跳链条件随机场模型 | 第91-94页 |
·模型训练和推理过程 | 第94-97页 |
·语义标注算法 | 第97-98页 |
·实验结果与分析 | 第98-103页 |
·数据区域识别算法评价 | 第98页 |
·语义标注模型性能评价 | 第98-103页 |
·小结 | 第103-104页 |
第六章 多源重复Web记录检测 | 第104-115页 |
·引言 | 第104-106页 |
·条件训练字符串编辑距离 | 第106-108页 |
·字符串编辑比对条件随机场模型 | 第106-107页 |
·模型参数估计方法 | 第107-108页 |
·合并多字段相似度的自适应重复Web记录检测 | 第108-109页 |
·实验结果与分析 | 第109-114页 |
·实验数据集 | 第109-110页 |
·字符串编辑距离模型的测试结果 | 第110-111页 |
·合并多字段重复记录检测的实验结果 | 第111-114页 |
·小结 | 第114-115页 |
结束语 | 第115-117页 |
致谢 | 第117-119页 |
参考文献 | 第119-129页 |
攻读博士学位期间的研究成果 | 第129页 |