深网数据爬取关键技术研究
摘要 | 第5-6页 |
abstract | 第6-7页 |
第一章 绪论 | 第13-20页 |
1.1 研究背景和意义 | 第13-14页 |
1.2 研究历史与现状 | 第14-18页 |
1.2.1 深网数据爬取 | 第14-15页 |
1.2.2 深网查询接口发现 | 第15-17页 |
1.2.3 深网查询接口模式提取 | 第17-18页 |
1.3 论文研究内容 | 第18-19页 |
1.4 论文结构安排 | 第19-20页 |
第二章 深网相关技术研究 | 第20-33页 |
2.1 Web网页设计技术基础 | 第20-24页 |
2.1.1 HTML标签语言 | 第20-22页 |
2.1.2 DOM模型 | 第22-23页 |
2.1.3 JavaScript脚本语言 | 第23-24页 |
2.2 深网信息提取技术 | 第24-25页 |
2.3 深网查询接口发现方法 | 第25-30页 |
2.3.1 网页交互接口定位 | 第25-26页 |
2.3.2 深网查询接口识别 | 第26-29页 |
2.3.3 深网查询接口分类 | 第29-30页 |
2.4 深网查询接口模式抽取方法 | 第30-32页 |
2.5 本章小结 | 第32-33页 |
第三章 深网查询接口发现方法研究 | 第33-58页 |
3.1 基于视觉信息的网页交互接口定位方法 | 第33-45页 |
3.1.1 基于布局引擎的网页渲染 | 第34-35页 |
3.1.2 基于视觉信息的布局分块 | 第35-39页 |
3.1.3 基于内容相关性的分块剪枝 | 第39-41页 |
3.1.4 基于空间布局的分块重构 | 第41-45页 |
3.2 基于统计特征的深网查询接口识别方法 | 第45-52页 |
3.2.1 网页交互接口结构特征提取 | 第45-48页 |
3.2.2 网页交互接口文本特征提取 | 第48-52页 |
3.3 实验测试与分析 | 第52-57页 |
3.3.1 网页交互接口定位方法测试 | 第52-55页 |
3.3.2 深网查询接口识别方法测试 | 第55-57页 |
3.4 本章小结 | 第57-58页 |
第四章 深网查询接口模式抽取方法研究 | 第58-80页 |
4.1 三阶段查询接口模式抽取方法框架 | 第58-61页 |
4.2 基于层次聚类的元素树构建方法 | 第61-68页 |
4.2.1 基于HTML布局标签的区域分割 | 第62-64页 |
4.2.2 基于层次聚类的元素树构建 | 第64-68页 |
4.3 基于启发式规则的语义标签匹配方法 | 第68-73页 |
4.3.1 基于空间布局特征的标签匹配规则 | 第68-69页 |
4.3.2 基于文本样式特征的标签匹配规则 | 第69页 |
4.3.3 基于启发式规则的标签匹配 | 第69-73页 |
4.4 深网查询接口元信息提取 | 第73-74页 |
4.5 实验测试与分析 | 第74-79页 |
4.5.1 元素树分组关系测试 | 第75-77页 |
4.5.2 标签匹配测试 | 第77-79页 |
4.6 本章小结 | 第79-80页 |
第五章 全文总结和展望 | 第80-82页 |
5.1 全文总结 | 第80-81页 |
5.2 后续工作展望 | 第81-82页 |
致谢 | 第82-83页 |
参考文献 | 第83-86页 |
攻硕期间取得的研究成果 | 第86页 |