深层网络数据源发现与查询结果抽取研究

摘要	第1-7页
Abstract	第7-11页
第1章绪论	第11-15页
·研究背景及意义	第11-12页
·国内外研究现状	第12-13页
·本文研究内容	第13-14页
·组织结构	第14-15页
第2章相关理论与技术基础	第15-20页
·查询接口	第15页
·网络爬虫	第15-16页
·数据源分类	第16-18页
·网页结构相似度计算模型	第18-20页
第3章深层网络数据源的发现及方法改进	第20-35页
·深层网络数据源发现框架	第20-21页
·查询接口的筛选	第21-25页
·概述	第21-22页
·查询接口定义	第22-23页
·基于规则的查询接口筛选	第23-25页
·数据源分类方法的改进	第25-35页
·传统数据源分类方法的不足	第25-27页
·一种改进的数据源分类方法	第27-30页
·改进方法的数据源分类过程	第30-33页
·实验结果与分析	第33-35页
第4章网页信息抽取及新算法的应用	第35-57页
·概述	第35-36页
·网页预处理	第36-39页
·网页文件的清洗	第36-38页
·网页标签树的建立	第38-39页
·一种新的网页标签树相似度算法	第39-45页
·问题的提出	第39-40页
·算法思想	第40-44页
·算法描述	第44-45页
·算法代价理论分析	第45页
·基于新算法的网页数据区域识别	第45-49页
·一种网页信息抽取的实例应用	第49-53页
·实例页面特点分析	第49-50页
·实例页面的信息抽取	第50-52页
·信息抽取算法描述	第52页
·抽取数据的存储	第52-53页
·实验结果与分析	第53-57页
·算法对网页相似程度衡量实验及结果分析	第54-55页
·数据区域记录发现实验及结果分析	第55-57页
第5章深层网络数据集成框架设计与主要模块实现	第57-65页
·深层网络数据集成框架设计	第57-58页
·数据源发现模块的实现	第58-62页
·概述	第58-59页
·网页下载子模块的实现	第59-60页
·查询接口子模块的实现	第60页
·数据源分类子模块的实现	第60-62页
·结果页面抽取模块的实现	第62-65页
·数据区域子模块的实现	第62-63页
·数据提取子模块的实现	第63-65页
总结与展望	第65-66页
论文总结	第65页
进一步工作	第65-66页
致谢	第66-67页
参考文献	第67-71页
攻读硕士学位期间发表的论文及科研成果	第71页