Deep Web数据获取方法研究

中文摘要	第1-5页
Abstract	第5-10页
第1章绪论	第10-14页
·研究背景及意义	第10-11页
·国内外研究现状	第11-12页
·主要研究内容	第12-13页
·本文组织	第13-14页
第2章 Deep Web 数据获取概述	第14-22页
·Deep Web 数据获取相关研究	第14-16页
·Deep Web 数据获取的重要性	第16-17页
·Deep Web 数据获取的难点	第17-18页
·解决方法介绍	第18-21页
·Deep Web 网站特点分析	第18-19页
·基于URL 模式的Deep Web 数据获取方法	第19-20页
·基于关键词查询的方法	第20-21页
·本章小结	第21-22页
第3章查询接口中有效属性组合的选择	第22-32页
·属性分类	第22-23页
·查询接口的特征提取	第23-27页
·HTML 表单和DOM 树	第23-24页
·查询接口的特征提取	第24-27页
·特征的标准化	第27页
·选择有效的属性组合	第27-31页
·属性相关度计算	第28-30页
·基于属性相关度的属性组合有效性计算	第30-31页
·本章小结	第31-32页
第4章选择有效的查询关键词	第32-44页
·特定的文本属性	第32-34页
·普通的文本属性	第34-43页
·查询候选关键词生成	第34-37页
·样本网页集聚类和模板生成	第34-36页
·有效数据字段发现	第36页
·有效数据字段与属性之间的映射	第36-37页
·查询关键字选择策略	第37-43页
·获取Deep Web 数据的形式化定义	第38-39页
·性能评价标准	第39页
·估计匹配的页面数量	第39-40页
·查询选择算法	第40-41页
·查询效能值计算的统计方法	第41-42页
·限制结果页面数的站点	第42-43页
·本章小结	第43-44页
第5章增量获取Deep Web 数据	第44-54页
·增量采集研究现状	第44-46页
·网页的增量采集策略	第44-45页
·网页的增量采集方法	第45-46页
·相关概念	第46-48页
·网页库的新鲜度	第46页
·增量采集的定义	第46页
·Deep Web 站点的网页更新特点	第46-48页
·基于泊松模型的增量获取Deep Web 数据的方法	第48-53页
·基于泊松模型的方法	第48-51页
·泊松模型在Deep Web 数据获取中的应用	第51-52页
·增量调度模块	第52-53页
·本章小结	第53-54页
第6章系统设计与实验	第54-62页
·系统设计	第54-55页
·Deep Web 爬虫效果的评价标准	第55-56页
·实验数据集	第56页
·实验结果及分析	第56-61页
·基于属性相关度的属性组合选择的有效性与高效性	第56-58页
·查询关键词选择的有效性与高效性	第58-60页
·爬虫在覆盖率和网页库新鲜度方面的有效性	第60-61页
·本章小结	第61-62页
第7章总结与展望	第62-65页
·工作总结	第62-63页
·特点与创新	第63页
·展望	第63-65页
参考文献	第65-70页
攻读学位期间公开发表的论文与科研项目	第70-71页
致谢	第71-72页