基于Hadoop的Web信息提取和垃圾信息过滤研究与实现

摘要	第1-5页
Abstract	第5-9页
第一章绪论	第9-15页
·课题背景	第9-10页
·研究目的和意义	第10页
·研究现状	第10-13页
·Web 信息提取	第10-12页
·Web 垃圾信息过滤	第12-13页
·本文的主要工作	第13页
·本文的组织结构	第13-15页
第二章 Hadoop 分布式计算平台	第15-25页
·HDFS 分布式文件系统	第15-19页
·块的概念	第16页
·名称节点和数据节点	第16-17页
·文件系统的命名空间	第17页
·数据备份与放置策略	第17-18页
·文件系统元数据的持久性	第18-19页
·MapReduce 编程模式	第19-24页
·MapReduce 编程举例	第21-22页
·MapReduce 任务执行流程	第22-24页
·本章小结	第24-25页
第三章 Web 信息提取和垃圾信息过滤技术	第25-34页
·Web 信息提取	第25-31页
·网页的结构特点	第25-27页
·网站中网页的组织结构	第27页
·网页信息提取技术	第27-31页
·Web 垃圾信息过滤	第31-33页
·基于关键词匹配的过滤方法	第31页
·基于黑名单的过滤方法	第31-32页
·基于机器学习的过滤方法	第32-33页
·本章小结	第33-34页
第四章 Web 信息提取在 Hadoop 上的实现	第34-57页
·基于 Hadoop 的 Web 信息提取方法的实现	第34-48页
·URL 链接提取	第35-37页
·URL 编码格式提取	第37-39页
·网页信息提取	第39-46页
·已提取 URL 预处理	第46页
·剔除已提取 URL	第46-48页
·Hadoop 云平台的搭建与编程环境的设置	第48-54页
·Hadoop 云平台的搭建	第48-51页
·基于 eclipse 的 Hadoop 开发环境设置	第51-54页
·实验结果与分析	第54-56页
·程序运行说明	第54-55页
·实验结果与分析	第55-56页
·本章小结	第56-57页
第五章 Web 垃圾信息过滤在 Hadoop 上的实现	第57-72页
·基于 Hadoop 的 Web 垃圾信息过滤方法的实现	第57-68页
·平均值计算	第61-63页
·协方差计算	第63-65页
·协方差矩阵预处理	第65-66页
·变量筛选求解回归系数及模型生成	第66-67页
·结果文件输出	第67-68页
·实验结果与分析	第68-71页
·程序运行说明	第68页
·实验结果与分析	第68-71页
·本章小结	第71-72页
第六章总结与展望	第72-74页
·本文总结	第72页
·今后研究展望	第72-74页
致谢	第74-75页
参考文献	第75-78页
攻硕期间取得的研究成果	第78-79页