面向网络舆情分析的Web数据源获取关键技术研究

摘要	第1-4页
Abstract	第4-7页
1 绪论	第7-13页
·研究背景及意义	第7-8页
·国内外研究现状	第8-10页
·本论文主要工作与研究内容	第10页
·本论文内容及组织结构	第10-13页
2 Web数据源获取关键技术综述	第13-23页
·网络爬虫技术介绍	第13-17页
·爬虫工作原理	第13-14页
·搜索策略	第14-16页
·漫游空间	第16-17页
·Web信息抽取技术介绍	第17-22页
·基于自然语言处理的抽取技术	第17-18页
·基于包装器归纳学习的抽取技术	第18-19页
·基于Ontology的抽取技术	第19-20页
·基于模板的抽取技术	第20页
·基于DOM Tree结构的抽取技术	第20-22页
·本章小结	第22-23页
3 面向网络舆情分析的Web爬虫设计	第23-33页
·面向网络舆情分析Web爬虫的特点	第23页
·面向论坛的爬虫设计	第23-28页
·面向博客的爬虫设计	第28-31页
·本章小结	第31-33页
4 针对列表式页面的Web信息自动提取与分类技术	第33-49页
·技术概述	第33-35页
·页面预处理	第35-36页
·有效数据记录集抽取	第36-42页
·数据记录集的抽取	第37-41页
·有效数据记录集的判定	第41-42页
·详细信息的提取	第42-44页
·详细信息的分类	第44-47页
·本章小结	第47-49页
5. 实验及数据分析	第49-57页
·面向舆情分析的Web爬虫	第49-51页
·Web爬虫运行环境及界面	第49页
·数据爬行结果	第49-51页
·Web信息抽取和分类	第51-55页
·测试环境、数据源及性能指标	第51-52页
·有效数据记录集的提取	第52-53页
·详细信息的抽取	第53-54页
·详细信息的分类	第54-55页
·本章小结	第55-57页
6. 总结	第57-59页
·主要研究成果	第57页
·进一步的讨论与展望	第57-59页
致谢	第59-61页
参考文献	第61-64页