互联网热点话题的数据采集及数据集建立
摘要 | 第1-5页 |
ABSTRACT | 第5-8页 |
第一章 绪论 | 第8-14页 |
·课题背景 | 第8-9页 |
·课题概述 | 第9-10页 |
·课题的研究意义 | 第10页 |
·课题研究成果 | 第10-14页 |
·研究主要对象 | 第10-11页 |
·研究主要工作 | 第11-13页 |
·本文结构简介 | 第13-14页 |
第二章 页面结构分析 | 第14-24页 |
·网页结构归类 | 第14-16页 |
·网页分块定义 | 第16-21页 |
·页面的嵌套 | 第16-17页 |
·页面属性分块 | 第17-21页 |
·网页分块特征抽取 | 第21-24页 |
·容器块特征抽取 | 第21-22页 |
·内部块特征抽取 | 第22-24页 |
第三章 信息抽取的算法 | 第24-38页 |
·数据采集的流程简介 | 第24-26页 |
·Web信息抽取方法简介 | 第26-27页 |
·自然语言处理数据抽取 | 第26页 |
·包装器数据抽取 | 第26页 |
·基于html结构的数据抽取 | 第26-27页 |
·基于ontology的数据抽取 | 第27页 |
·包装器介绍 | 第27-28页 |
·页面处理算法 | 第28-38页 |
·算法的二层关系 | 第28-30页 |
·模板抽取方法 | 第30-32页 |
·DOM树分割算法 | 第32-34页 |
·基于视觉分块算法 | 第34-38页 |
第四章 页面信息数据采集系统 | 第38-52页 |
·页面信息数据采集系统设计 | 第38-47页 |
·系统设计思路 | 第38-40页 |
·互联网页面获取 | 第40-42页 |
·系统结构图设计 | 第42-43页 |
·系统配置文档及代码设计 | 第43-47页 |
·信息获取中的样本训练 | 第47-49页 |
·页面预处理 | 第47页 |
·样本集特征提取 | 第47-49页 |
·样本特征量化方法 | 第49页 |
·根据特征的分类器设计实现 | 第49-52页 |
第五章 数据集建立及数据集结果 | 第52-58页 |
·基于数据库建立的数据集存储 | 第52-53页 |
·基于Hadoop应用的HBase建立 | 第53-55页 |
·Hadoop简介 | 第53-54页 |
·基于Hadoop应用的HBase简介 | 第54-55页 |
·已建立数据集简介 | 第55-58页 |
第六章 总结与展望 | 第58-60页 |
参考文献 | 第60-62页 |
致谢 | 第62-64页 |
攻读学位期间发表的学术论文 | 第64页 |