面向领域的高质量Deep Web数据集成技术研究
| 摘要 | 第1-8页 |
| ABSTRACT | 第8-14页 |
| 第一章 绪论 | 第14-21页 |
| ·研究背景和意义 | 第14-16页 |
| ·国内外研究现状 | 第16-18页 |
| ·本文研究内容 | 第18-19页 |
| ·本文结构 | 第19-21页 |
| 第二章 基于顺序回归的DEEP WEB数据源发现 | 第21-34页 |
| ·引言 | 第21-23页 |
| ·基于顺序回归的页面分类器 | 第23-28页 |
| ·Deep Web深度特点 | 第23页 |
| ·爬行策略反馈模型 | 第23-24页 |
| ·用户偏好和顺序回归 | 第24-25页 |
| ·顺序回归 | 第25-27页 |
| ·基于顺序回归模型的页面分类 | 第27-28页 |
| ·基于反馈模型的DEEP WEB爬虫 | 第28-30页 |
| ·网页分类器 | 第28-29页 |
| ·表单分类器 | 第29页 |
| ·链接特征学习器 | 第29-30页 |
| ·爬行过程 | 第30页 |
| ·实验结果及分析 | 第30-33页 |
| ·小结 | 第33-34页 |
| 第三章 基于属性关联度的WEB数据库抽样 | 第34-51页 |
| ·引言 | 第34-36页 |
| ·相关问题定义 | 第36-38页 |
| ·均匀Web数据库 | 第36页 |
| ·抽样方法目标 | 第36-38页 |
| ·初始抽样查询的生成 | 第38-41页 |
| ·查询返回类型 | 第38-39页 |
| ·抽样模板 | 第39-41页 |
| ·搜索抽样模板 | 第41-45页 |
| ·属性相关度度量 | 第41-43页 |
| ·抽样模板搜索算法 | 第43页 |
| ·时间和空间复杂度分析 | 第43-45页 |
| ·上溢查询的引导方法 | 第45-46页 |
| ·基于互信息的启发规则 | 第45-46页 |
| ·非均匀Web数据库抽样算法 | 第46页 |
| · | 第46-50页 |
| ·实验设置 | 第46-48页 |
| ·NU-HDB-SAMPLER实验结果及分析 | 第48-50页 |
| ·小结 | 第50-51页 |
| 第四章 基于数据质量的DEEP WEB数据源排序 | 第51-64页 |
| ·引言 | 第51-52页 |
| ·数据源的质量标准 | 第52-55页 |
| ·覆盖度标准 | 第53页 |
| ·有效性标准 | 第53-54页 |
| ·结果完备性标准 | 第54页 |
| ·权威度标准 | 第54-55页 |
| ·时效性标准 | 第55页 |
| ·排序优劣性标准 | 第55页 |
| ·质量向量及标准化处理 | 第55-57页 |
| ·质量模型 | 第55-56页 |
| ·质量向量的标准化和一般化处理 | 第56-57页 |
| ·质量向量的权重 | 第57-60页 |
| ·权重向量 | 第57-58页 |
| ·权重向量的计算方法 | 第58-60页 |
| ·根据数据质量进行排序 | 第60-61页 |
| ·实验结果及分析 | 第61-63页 |
| ·实验设置 | 第61页 |
| ·权重向量的求解 | 第61-62页 |
| ·估计量计算与排序 | 第62-63页 |
| 小结 | 第63-64页 |
| 第五章 基于层次树模型的DEEP WEB数据提取 | 第64-84页 |
| ·引言 | 第64-68页 |
| ·WEB数据库建模 | 第68-73页 |
| ·问题定义 | 第68-69页 |
| ·Web数据库建模 | 第69-70页 |
| ·查询空间与提取效率 | 第70-72页 |
| ·提取代价 | 第72-73页 |
| ·基于属性排序的查询空间压缩 | 第73-75页 |
| ·属性的分类 | 第73页 |
| ·基于属性值域的查询属性排序 | 第73-74页 |
| ·文本属性值的获取方法 | 第74-75页 |
| ·基于属性值互信息的遍历 | 第75-77页 |
| ·Naive的遍历方法 | 第75页 |
| ·属性值相关度 | 第75-76页 |
| ·属性值相关度计算方法 | 第76-77页 |
| ·Deep Web数据提取算法 | 第77页 |
| ·实验结果及分析 | 第77-82页 |
| ·实验设置 | 第77-79页 |
| ·实验分析 | 第79-82页 |
| 小结 | 第82-84页 |
| 第六章 结构化数据的集成研究 | 第84-104页 |
| ·引言 | 第84-86页 |
| ·基于属性语义的模式匹配方法 | 第86-88页 |
| ·模式匹配 | 第86-88页 |
| ·结构化数据提取 | 第88-98页 |
| ·扩展的Web-Harvest结构化数据提取 | 第88-90页 |
| ·基于聚类的数据定位方法 | 第90-95页 |
| ·提取规则的自动生成 | 第95-98页 |
| ·结构化数据去重 | 第98-100页 |
| ·问题定义 | 第98-99页 |
| ·利用数据库关系运算去除重复记录 | 第99-100页 |
| ·实验及分析 | 第100-103页 |
| ·实验设置 | 第101页 |
| ·实验结果及分析 | 第101-103页 |
| 小结 | 第103-104页 |
| 第七章 总结和展望 | 第104-106页 |
| ·总结 | 第104-105页 |
| ·进一步工作 | 第105-106页 |
| 参考文献 | 第106-111页 |
| 致谢 | 第111-112页 |
| 攻读博士学位期间参与的科研项目及研究成果 | 第112页 |
| 参与的科研项目 | 第112页 |
| 主要研究成果 | 第112页 |