基于网络信息检索的网页文本抽取和处理的研究

摘要	第4-5页
Abstract	第5页
第一章绪论	第8-13页
1.1 研究背景	第8-9页
1.2 国内外研究现状	第9-10页
1.2.1 网络爬虫技术	第9页
1.2.2 网络文本处理技术	第9-10页
1.3 研究目标和内容	第10-11页
1.3.1 研究目标	第10页
1.3.2 研究内容	第10-11页
1.4 论文来源和主要贡献	第11-12页
1.4.1 论文来源	第11页
1.4.2 主要贡献	第11-12页
1.5 论文结构	第12-13页
第二章网络信息检索及其文本处理方法概述	第13-22页
2.1 网络信息检索方法概述	第13-16页
2.1.1 网络爬虫算法介绍	第13-15页
2.1.2 搜索引擎介绍	第15-16页
2.2 Google Custom Search 研究	第16-19页
2.2.1 Google Custom SearchAPI 介绍	第16-17页
2.2.2 基于 Google Custom SearchAPI 的网络爬虫设计	第17-19页
2.3 网络文本处理方法概述	第19-20页
2.4 本章小结	第20-22页
第三章基于链接回溯的地理信息更新主题网络爬虫的研究	第22-31页
3.1 引言	第22页
3.2 链接回溯思想概述	第22-24页
3.3 基于 SVM 分类的加权爬取算法	第24-27页
3.3.1 SVM 分类模型	第24-25页
3.3.2 算法描述	第25-27页
3.4 基于知识库判别的爬取算法	第27-30页
3.4.1 知识库判别方法	第27-29页
3.4.2 算法描述	第29-30页
3.5 本章小结	第30-31页
第四章网络文本获取和地理信息要素抽取	第31-44页
4.1 网页结构特点及正则表达式介绍	第31-33页
4.1.1 网页结构特点	第31-32页
4.1.2 正则表达式介绍	第32-33页
4.2 网络文本要素获取	第33-37页
4.2.1 标题获取	第33-34页
4.2.2 正文获取	第34-35页
4.2.3 发布时间获取	第35页
4.2.4 可信度计算方法	第35-37页
4.3 地理信息变化要素抽取	第37-43页
4.3.1 主题要素抽取	第37-38页
4.3.2 变化时间抽取	第38-40页
4.3.3 相关地名抽取	第40-41页
4.3.4 变化属性抽取	第41-43页
4.4 本章小结	第43-44页
第五章地理信息变化检测原型系统的设计与实现	第44-57页
5.1 系统架构	第44-49页
5.2 系统主要功能	第49-53页
5.2.1 系统登录	第49页
5.2.2 知识库管理	第49-50页
5.2.3 网页检索	第50-53页
5.3 系统性能测试	第53-56页
5.3.1 信息抽取效率测试	第53-54页
5.3.2 主题爬虫效率测试	第54-55页
5.3.3 系统检索效率测试	第55-56页
5.4 本章小结	第56-57页
第六章总结和展望	第57-59页
6.1 总结	第57页
6.2 展望	第57-59页
参考文献	第59-62页
附录 1 攻读硕士学位期间撰写的论文	第62-63页
附录 2 攻读硕士学位期间申请的专利	第63-64页
附录 3 攻读硕士学位期间参加的科研项目	第64-65页
致谢	第65页