深层网络数据源发现与查询结果抽取研究
| 摘要 | 第1-7页 |
| Abstract | 第7-11页 |
| 第1章 绪论 | 第11-15页 |
| ·研究背景及意义 | 第11-12页 |
| ·国内外研究现状 | 第12-13页 |
| ·本文研究内容 | 第13-14页 |
| ·组织结构 | 第14-15页 |
| 第2章 相关理论与技术基础 | 第15-20页 |
| ·查询接口 | 第15页 |
| ·网络爬虫 | 第15-16页 |
| ·数据源分类 | 第16-18页 |
| ·网页结构相似度计算模型 | 第18-20页 |
| 第3章 深层网络数据源的发现及方法改进 | 第20-35页 |
| ·深层网络数据源发现框架 | 第20-21页 |
| ·查询接口的筛选 | 第21-25页 |
| ·概述 | 第21-22页 |
| ·查询接口定义 | 第22-23页 |
| ·基于规则的查询接口筛选 | 第23-25页 |
| ·数据源分类方法的改进 | 第25-35页 |
| ·传统数据源分类方法的不足 | 第25-27页 |
| ·一种改进的数据源分类方法 | 第27-30页 |
| ·改进方法的数据源分类过程 | 第30-33页 |
| ·实验结果与分析 | 第33-35页 |
| 第4章 网页信息抽取及新算法的应用 | 第35-57页 |
| ·概述 | 第35-36页 |
| ·网页预处理 | 第36-39页 |
| ·网页文件的清洗 | 第36-38页 |
| ·网页标签树的建立 | 第38-39页 |
| ·一种新的网页标签树相似度算法 | 第39-45页 |
| ·问题的提出 | 第39-40页 |
| ·算法思想 | 第40-44页 |
| ·算法描述 | 第44-45页 |
| ·算法代价理论分析 | 第45页 |
| ·基于新算法的网页数据区域识别 | 第45-49页 |
| ·一种网页信息抽取的实例应用 | 第49-53页 |
| ·实例页面特点分析 | 第49-50页 |
| ·实例页面的信息抽取 | 第50-52页 |
| ·信息抽取算法描述 | 第52页 |
| ·抽取数据的存储 | 第52-53页 |
| ·实验结果与分析 | 第53-57页 |
| ·算法对网页相似程度衡量实验及结果分析 | 第54-55页 |
| ·数据区域记录发现实验及结果分析 | 第55-57页 |
| 第5章 深层网络数据集成框架设计与主要模块实现 | 第57-65页 |
| ·深层网络数据集成框架设计 | 第57-58页 |
| ·数据源发现模块的实现 | 第58-62页 |
| ·概述 | 第58-59页 |
| ·网页下载子模块的实现 | 第59-60页 |
| ·查询接口子模块的实现 | 第60页 |
| ·数据源分类子模块的实现 | 第60-62页 |
| ·结果页面抽取模块的实现 | 第62-65页 |
| ·数据区域子模块的实现 | 第62-63页 |
| ·数据提取子模块的实现 | 第63-65页 |
| 总结与展望 | 第65-66页 |
| 论文总结 | 第65页 |
| 进一步工作 | 第65-66页 |
| 致谢 | 第66-67页 |
| 参考文献 | 第67-71页 |
| 攻读硕士学位期间发表的论文及科研成果 | 第71页 |