首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Hadoop的OA期刊论文资源发现及采集方法

摘要第1-6页
Abstract第6-11页
第1章 绪论第11-17页
   ·课题背景及意义第11-12页
   ·国内外研究现状第12-15页
     ·OA期刊资源整合的研究现状第12-13页
     ·DeepWeb资源发现和采集的研究现状第13-14页
     ·Web信息抽取技术的研究现状第14-15页
     ·Hadoop技术的研究现状第15页
   ·本文的主要研究内容第15-16页
   ·本文组织结构第16-17页
第2章 基础知识和相关技术第17-25页
   ·HTML解析工具的介绍第17-18页
   ·网络爬虫技术介绍第18-19页
   ·Web信息抽取技术介绍第19-20页
   ·决策树简介第20-22页
   ·Hadoop简介第22-24页
     ·HDFS第22-23页
     ·MapReduce编程模型第23-24页
   ·本章小结第24-25页
第3章 OA期刊论文资源采集系统的框架设计第25-33页
   ·系统框架第25-28页
     ·OA期刊论文资源采集系统框架第25-26页
     ·系统总体模块第26-27页
     ·系统总体流程第27-28页
   ·系统中的主要模块第28-32页
     ·分布式论文资源发现模块第28-29页
     ·分布式论文资源采集模块第29-31页
     ·更新检测模块第31-32页
   ·本章小结第32-33页
第4章 面向OA期刊站点的论文资源发现方法第33-45页
   ·OA期刊论文资源发现流程第33-34页
   ·OA期刊站点分类第34-37页
     ·首页特征选取第34-35页
     ·构建 C4.5 决策树第35-36页
     ·基于决策树 C4.5 的OA期刊站点分类算法第36-37页
   ·期刊站点内论文资源发现第37-44页
     ·卷期目录型期刊站点内论文资源发现第37-41页
     ·检索接口型期刊站点内论文资源发现第41-44页
   ·本章小结第44-45页
第5章 面向OA期刊站点的论文资源的采集方法第45-55页
   ·OA期刊论文资源采集流程第45-46页
   ·OA期刊论文资源采集第46-51页
     ·论文信息资源库文件解析第46-48页
     ·pdf论文采集第48-51页
   ·pdf小文件处理第51-52页
   ·期刊站点的更新检测第52-54页
     ·更新检测的时间间隔的判定第53页
     ·更新检测判定第53-54页
   ·本章小结第54-55页
第6章 系统实现与实验分析第55-72页
   ·环境搭建第55-57页
     ·Hadoop平台搭建第55-56页
     ·Hadoop环境配置第56-57页
   ·系统主要功能模块的实现第57-66页
     ·分布式论文资源发现模块实现第58-63页
     ·分布式论文资源采集模块实现第63-66页
   ·论文资源发现实验与分析第66-68页
     ·实验数据及其评价标准第66-67页
     ·OA 期刊站点分类实验第67-68页
     ·OA 期刊论文资源发现算法实验第68页
   ·论文资源采集实验与分析第68-71页
     ·评价标准第68-69页
     ·OA 期刊论文资源采集算法实验第69-70页
     ·单机环境和集群环境下采集效率的对比第70-71页
   ·本章小结第71-72页
结论第72-74页
参考文献第74-77页
攻读硕士学位期间承担的科研任务与主要成果第77-78页
致谢第78-79页
作者简介第79页

论文共79页,点击 下载论文
上一篇:基于2D和3D掌纹图像方向特征融合的掌纹识别研究
下一篇:基于结构—能量特征的稀疏表示手掌静脉识别算法研究