面向领域的高质量Deep Web数据集成技术研究
摘要 | 第1-8页 |
ABSTRACT | 第8-14页 |
第一章 绪论 | 第14-21页 |
·研究背景和意义 | 第14-16页 |
·国内外研究现状 | 第16-18页 |
·本文研究内容 | 第18-19页 |
·本文结构 | 第19-21页 |
第二章 基于顺序回归的DEEP WEB数据源发现 | 第21-34页 |
·引言 | 第21-23页 |
·基于顺序回归的页面分类器 | 第23-28页 |
·Deep Web深度特点 | 第23页 |
·爬行策略反馈模型 | 第23-24页 |
·用户偏好和顺序回归 | 第24-25页 |
·顺序回归 | 第25-27页 |
·基于顺序回归模型的页面分类 | 第27-28页 |
·基于反馈模型的DEEP WEB爬虫 | 第28-30页 |
·网页分类器 | 第28-29页 |
·表单分类器 | 第29页 |
·链接特征学习器 | 第29-30页 |
·爬行过程 | 第30页 |
·实验结果及分析 | 第30-33页 |
·小结 | 第33-34页 |
第三章 基于属性关联度的WEB数据库抽样 | 第34-51页 |
·引言 | 第34-36页 |
·相关问题定义 | 第36-38页 |
·均匀Web数据库 | 第36页 |
·抽样方法目标 | 第36-38页 |
·初始抽样查询的生成 | 第38-41页 |
·查询返回类型 | 第38-39页 |
·抽样模板 | 第39-41页 |
·搜索抽样模板 | 第41-45页 |
·属性相关度度量 | 第41-43页 |
·抽样模板搜索算法 | 第43页 |
·时间和空间复杂度分析 | 第43-45页 |
·上溢查询的引导方法 | 第45-46页 |
·基于互信息的启发规则 | 第45-46页 |
·非均匀Web数据库抽样算法 | 第46页 |
· | 第46-50页 |
·实验设置 | 第46-48页 |
·NU-HDB-SAMPLER实验结果及分析 | 第48-50页 |
·小结 | 第50-51页 |
第四章 基于数据质量的DEEP WEB数据源排序 | 第51-64页 |
·引言 | 第51-52页 |
·数据源的质量标准 | 第52-55页 |
·覆盖度标准 | 第53页 |
·有效性标准 | 第53-54页 |
·结果完备性标准 | 第54页 |
·权威度标准 | 第54-55页 |
·时效性标准 | 第55页 |
·排序优劣性标准 | 第55页 |
·质量向量及标准化处理 | 第55-57页 |
·质量模型 | 第55-56页 |
·质量向量的标准化和一般化处理 | 第56-57页 |
·质量向量的权重 | 第57-60页 |
·权重向量 | 第57-58页 |
·权重向量的计算方法 | 第58-60页 |
·根据数据质量进行排序 | 第60-61页 |
·实验结果及分析 | 第61-63页 |
·实验设置 | 第61页 |
·权重向量的求解 | 第61-62页 |
·估计量计算与排序 | 第62-63页 |
小结 | 第63-64页 |
第五章 基于层次树模型的DEEP WEB数据提取 | 第64-84页 |
·引言 | 第64-68页 |
·WEB数据库建模 | 第68-73页 |
·问题定义 | 第68-69页 |
·Web数据库建模 | 第69-70页 |
·查询空间与提取效率 | 第70-72页 |
·提取代价 | 第72-73页 |
·基于属性排序的查询空间压缩 | 第73-75页 |
·属性的分类 | 第73页 |
·基于属性值域的查询属性排序 | 第73-74页 |
·文本属性值的获取方法 | 第74-75页 |
·基于属性值互信息的遍历 | 第75-77页 |
·Naive的遍历方法 | 第75页 |
·属性值相关度 | 第75-76页 |
·属性值相关度计算方法 | 第76-77页 |
·Deep Web数据提取算法 | 第77页 |
·实验结果及分析 | 第77-82页 |
·实验设置 | 第77-79页 |
·实验分析 | 第79-82页 |
小结 | 第82-84页 |
第六章 结构化数据的集成研究 | 第84-104页 |
·引言 | 第84-86页 |
·基于属性语义的模式匹配方法 | 第86-88页 |
·模式匹配 | 第86-88页 |
·结构化数据提取 | 第88-98页 |
·扩展的Web-Harvest结构化数据提取 | 第88-90页 |
·基于聚类的数据定位方法 | 第90-95页 |
·提取规则的自动生成 | 第95-98页 |
·结构化数据去重 | 第98-100页 |
·问题定义 | 第98-99页 |
·利用数据库关系运算去除重复记录 | 第99-100页 |
·实验及分析 | 第100-103页 |
·实验设置 | 第101页 |
·实验结果及分析 | 第101-103页 |
小结 | 第103-104页 |
第七章 总结和展望 | 第104-106页 |
·总结 | 第104-105页 |
·进一步工作 | 第105-106页 |
参考文献 | 第106-111页 |
致谢 | 第111-112页 |
攻读博士学位期间参与的科研项目及研究成果 | 第112页 |
参与的科研项目 | 第112页 |
主要研究成果 | 第112页 |