互联网地理信息爬虫技术研究与应用
中文摘要 | 第6-7页 |
Abstract | 第7-8页 |
1 绪论 | 第9-15页 |
1.1 研究背景与意义 | 第9-10页 |
1.1.1 研究背景 | 第9页 |
1.1.2 研究目标与意义 | 第9-10页 |
1.2 国内外研究现状 | 第10-14页 |
1.2.1 爬虫相关技术 | 第10-11页 |
1.2.2 常见的爬虫引擎 | 第11-13页 |
1.2.3 爬虫技术在互联网地理信息采集中的应用 | 第13-14页 |
1.3 研究内容和结构安排 | 第14-15页 |
1.3.1 主要研究内容 | 第14页 |
1.3.2 本文结构 | 第14-15页 |
2 互联网爬虫技术分析 | 第15-22页 |
2.1 Http协议 | 第15-17页 |
2.2 互联网爬虫技术原理 | 第17-19页 |
2.3 互联网爬虫类型 | 第19页 |
2.4 互联网爬虫抓取策略 | 第19-22页 |
3 面向类别的互联网地理信息抓取方法研究 | 第22-46页 |
3.1 含有地理信息数据的网站分析 | 第22-27页 |
3.1.1 网页浏览器工作原理 | 第22-24页 |
3.1.2 互联网地理信息承载网站分析与归类 | 第24-27页 |
3.1.2.1 浅层地理信息承载网站分析与归类 | 第25-26页 |
3.1.2.2 深层地理信息承载网站分析 | 第26-27页 |
3.2 浅层网络地理信息数据抓取的方法 | 第27-35页 |
3.2.1 单页面抓取方法 | 第27-33页 |
3.2.2 列表页面抓取方法 | 第33-35页 |
3.3 深网POI地理信息数据抓取的方法 | 第35-42页 |
3.3.1 主要难点 | 第36-37页 |
3.3.2 抓取技术 | 第37页 |
3.3.3 内容检索词 | 第37-39页 |
3.3.4 抓取策略 | 第39-42页 |
3.4 基本解析方法 | 第42-46页 |
4 互联网地理信息数据抓取原型系统设计 | 第46-64页 |
4.1 系统功能需求分析 | 第46-47页 |
4.2 架构设计 | 第47-60页 |
4.2.1 代理控制模块 | 第47-48页 |
4.2.2 数据管道模块 | 第48-52页 |
4.2.3 分布式爬虫模块 | 第52-60页 |
4.3 系统数据内容及其存储设计 | 第60-64页 |
5 原型系统实现与应用 | 第64-72页 |
5.1 系统开发环境 | 第64页 |
5.2 原型系统实现 | 第64-67页 |
5.3 系统测试 | 第67-68页 |
5.4 系统应用 | 第68-72页 |
5.4.1 在蔬菜安全追溯中的应用 | 第68-69页 |
5.4.2 在基础地理信息辅助更新中的应用 | 第69-72页 |
6 结论与展望 | 第72-74页 |
6.1 结论与创新点 | 第72页 |
6.2 进一步的工作与展望 | 第72-74页 |
参考文献 | 第74-77页 |
致谢 | 第77-79页 |
攻读硕士学位期间发表论文及其他成果 | 第79页 |