首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于Hadoop的Web信息提取和垃圾信息过滤研究与实现

摘要第1-5页
Abstract第5-9页
第一章 绪论第9-15页
   ·课题背景第9-10页
   ·研究目的和意义第10页
   ·研究现状第10-13页
     ·Web 信息提取第10-12页
     ·Web 垃圾信息过滤第12-13页
   ·本文的主要工作第13页
   ·本文的组织结构第13-15页
第二章 Hadoop 分布式计算平台第15-25页
   ·HDFS 分布式文件系统第15-19页
     ·块的概念第16页
     ·名称节点和数据节点第16-17页
     ·文件系统的命名空间第17页
     ·数据备份与放置策略第17-18页
     ·文件系统元数据的持久性第18-19页
   ·MapReduce 编程模式第19-24页
     ·MapReduce 编程举例第21-22页
     ·MapReduce 任务执行流程第22-24页
   ·本章小结第24-25页
第三章 Web 信息提取和垃圾信息过滤技术第25-34页
   ·Web 信息提取第25-31页
     ·网页的结构特点第25-27页
     ·网站中网页的组织结构第27页
     ·网页信息提取技术第27-31页
   ·Web 垃圾信息过滤第31-33页
     ·基于关键词匹配的过滤方法第31页
     ·基于黑名单的过滤方法第31-32页
     ·基于机器学习的过滤方法第32-33页
   ·本章小结第33-34页
第四章 Web 信息提取在 Hadoop 上的实现第34-57页
   ·基于 Hadoop 的 Web 信息提取方法的实现第34-48页
     ·URL 链接提取第35-37页
     ·URL 编码格式提取第37-39页
     ·网页信息提取第39-46页
     ·已提取 URL 预处理第46页
     ·剔除已提取 URL第46-48页
   ·Hadoop 云平台的搭建与编程环境的设置第48-54页
     ·Hadoop 云平台的搭建第48-51页
     ·基于 eclipse 的 Hadoop 开发环境设置第51-54页
   ·实验结果与分析第54-56页
     ·程序运行说明第54-55页
     ·实验结果与分析第55-56页
   ·本章小结第56-57页
第五章 Web 垃圾信息过滤在 Hadoop 上的实现第57-72页
   ·基于 Hadoop 的 Web 垃圾信息过滤方法的实现第57-68页
     ·平均值计算第61-63页
     ·协方差计算第63-65页
     ·协方差矩阵预处理第65-66页
     ·变量筛选求解回归系数及模型生成第66-67页
     ·结果文件输出第67-68页
   ·实验结果与分析第68-71页
     ·程序运行说明第68页
     ·实验结果与分析第68-71页
   ·本章小结第71-72页
第六章 总结与展望第72-74页
   ·本文总结第72页
   ·今后研究展望第72-74页
致谢第74-75页
参考文献第75-78页
攻硕期间取得的研究成果第78-79页

论文共79页,点击 下载论文
上一篇:云计算可靠性评估与任务调度方法研究
下一篇:社会网络个性化隐私保护方法的研究与实现