面向领域的高质量Deep Web数据集成技术研究

摘要	第1-8页
ABSTRACT	第8-14页
第一章绪论	第14-21页
·研究背景和意义	第14-16页
·国内外研究现状	第16-18页
·本文研究内容	第18-19页
·本文结构	第19-21页
第二章基于顺序回归的DEEP WEB数据源发现	第21-34页
·引言	第21-23页
·基于顺序回归的页面分类器	第23-28页
·Deep Web深度特点	第23页
·爬行策略反馈模型	第23-24页
·用户偏好和顺序回归	第24-25页
·顺序回归	第25-27页
·基于顺序回归模型的页面分类	第27-28页
·基于反馈模型的DEEP WEB爬虫	第28-30页
·网页分类器	第28-29页
·表单分类器	第29页
·链接特征学习器	第29-30页
·爬行过程	第30页
·实验结果及分析	第30-33页
·小结	第33-34页
第三章基于属性关联度的WEB数据库抽样	第34-51页
·引言	第34-36页
·相关问题定义	第36-38页
·均匀Web数据库	第36页
·抽样方法目标	第36-38页
·初始抽样查询的生成	第38-41页
·查询返回类型	第38-39页
·抽样模板	第39-41页
·搜索抽样模板	第41-45页
·属性相关度度量	第41-43页
·抽样模板搜索算法	第43页
·时间和空间复杂度分析	第43-45页
·上溢查询的引导方法	第45-46页
·基于互信息的启发规则	第45-46页
·非均匀Web数据库抽样算法	第46页
·	第46-50页
·实验设置	第46-48页
·NU-HDB-SAMPLER实验结果及分析	第48-50页
·小结	第50-51页
第四章基于数据质量的DEEP WEB数据源排序	第51-64页
·引言	第51-52页
·数据源的质量标准	第52-55页
·覆盖度标准	第53页
·有效性标准	第53-54页
·结果完备性标准	第54页
·权威度标准	第54-55页
·时效性标准	第55页
·排序优劣性标准	第55页
·质量向量及标准化处理	第55-57页
·质量模型	第55-56页
·质量向量的标准化和一般化处理	第56-57页
·质量向量的权重	第57-60页
·权重向量	第57-58页
·权重向量的计算方法	第58-60页
·根据数据质量进行排序	第60-61页
·实验结果及分析	第61-63页
·实验设置	第61页
·权重向量的求解	第61-62页
·估计量计算与排序	第62-63页
小结	第63-64页
第五章基于层次树模型的DEEP WEB数据提取	第64-84页
·引言	第64-68页
·WEB数据库建模	第68-73页
·问题定义	第68-69页
·Web数据库建模	第69-70页
·查询空间与提取效率	第70-72页
·提取代价	第72-73页
·基于属性排序的查询空间压缩	第73-75页
·属性的分类	第73页
·基于属性值域的查询属性排序	第73-74页
·文本属性值的获取方法	第74-75页
·基于属性值互信息的遍历	第75-77页
·Naive的遍历方法	第75页
·属性值相关度	第75-76页
·属性值相关度计算方法	第76-77页
·Deep Web数据提取算法	第77页
·实验结果及分析	第77-82页
·实验设置	第77-79页
·实验分析	第79-82页
小结	第82-84页
第六章结构化数据的集成研究	第84-104页
·引言	第84-86页
·基于属性语义的模式匹配方法	第86-88页
·模式匹配	第86-88页
·结构化数据提取	第88-98页
·扩展的Web-Harvest结构化数据提取	第88-90页
·基于聚类的数据定位方法	第90-95页
·提取规则的自动生成	第95-98页
·结构化数据去重	第98-100页
·问题定义	第98-99页
·利用数据库关系运算去除重复记录	第99-100页
·实验及分析	第100-103页
·实验设置	第101页
·实验结果及分析	第101-103页
小结	第103-104页
第七章总结和展望	第104-106页
·总结	第104-105页
·进一步工作	第105-106页
参考文献	第106-111页
致谢	第111-112页
攻读博士学位期间参与的科研项目及研究成果	第112页
参与的科研项目	第112页
主要研究成果	第112页