首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

互联网热点话题的数据采集及数据集建立

摘要第1-5页
ABSTRACT第5-8页
第一章 绪论第8-14页
   ·课题背景第8-9页
   ·课题概述第9-10页
   ·课题的研究意义第10页
   ·课题研究成果第10-14页
     ·研究主要对象第10-11页
     ·研究主要工作第11-13页
     ·本文结构简介第13-14页
第二章 页面结构分析第14-24页
   ·网页结构归类第14-16页
   ·网页分块定义第16-21页
     ·页面的嵌套第16-17页
     ·页面属性分块第17-21页
   ·网页分块特征抽取第21-24页
     ·容器块特征抽取第21-22页
     ·内部块特征抽取第22-24页
第三章 信息抽取的算法第24-38页
   ·数据采集的流程简介第24-26页
   ·Web信息抽取方法简介第26-27页
     ·自然语言处理数据抽取第26页
     ·包装器数据抽取第26页
     ·基于html结构的数据抽取第26-27页
     ·基于ontology的数据抽取第27页
   ·包装器介绍第27-28页
   ·页面处理算法第28-38页
     ·算法的二层关系第28-30页
     ·模板抽取方法第30-32页
     ·DOM树分割算法第32-34页
     ·基于视觉分块算法第34-38页
第四章 页面信息数据采集系统第38-52页
   ·页面信息数据采集系统设计第38-47页
     ·系统设计思路第38-40页
     ·互联网页面获取第40-42页
     ·系统结构图设计第42-43页
     ·系统配置文档及代码设计第43-47页
   ·信息获取中的样本训练第47-49页
     ·页面预处理第47页
     ·样本集特征提取第47-49页
   ·样本特征量化方法第49页
   ·根据特征的分类器设计实现第49-52页
第五章 数据集建立及数据集结果第52-58页
   ·基于数据库建立的数据集存储第52-53页
   ·基于Hadoop应用的HBase建立第53-55页
     ·Hadoop简介第53-54页
     ·基于Hadoop应用的HBase简介第54-55页
   ·已建立数据集简介第55-58页
第六章 总结与展望第58-60页
参考文献第60-62页
致谢第62-64页
攻读学位期间发表的学术论文第64页

论文共64页,点击 下载论文
上一篇:基于中国C2C电子商务网站的用户体验研究
下一篇:微博客的多重性应用研究与交互设计