摘要 | 第1-5页 |
Abstract | 第5-9页 |
第一章 绪论 | 第9-15页 |
·课题背景 | 第9-10页 |
·研究目的和意义 | 第10页 |
·研究现状 | 第10-13页 |
·Web 信息提取 | 第10-12页 |
·Web 垃圾信息过滤 | 第12-13页 |
·本文的主要工作 | 第13页 |
·本文的组织结构 | 第13-15页 |
第二章 Hadoop 分布式计算平台 | 第15-25页 |
·HDFS 分布式文件系统 | 第15-19页 |
·块的概念 | 第16页 |
·名称节点和数据节点 | 第16-17页 |
·文件系统的命名空间 | 第17页 |
·数据备份与放置策略 | 第17-18页 |
·文件系统元数据的持久性 | 第18-19页 |
·MapReduce 编程模式 | 第19-24页 |
·MapReduce 编程举例 | 第21-22页 |
·MapReduce 任务执行流程 | 第22-24页 |
·本章小结 | 第24-25页 |
第三章 Web 信息提取和垃圾信息过滤技术 | 第25-34页 |
·Web 信息提取 | 第25-31页 |
·网页的结构特点 | 第25-27页 |
·网站中网页的组织结构 | 第27页 |
·网页信息提取技术 | 第27-31页 |
·Web 垃圾信息过滤 | 第31-33页 |
·基于关键词匹配的过滤方法 | 第31页 |
·基于黑名单的过滤方法 | 第31-32页 |
·基于机器学习的过滤方法 | 第32-33页 |
·本章小结 | 第33-34页 |
第四章 Web 信息提取在 Hadoop 上的实现 | 第34-57页 |
·基于 Hadoop 的 Web 信息提取方法的实现 | 第34-48页 |
·URL 链接提取 | 第35-37页 |
·URL 编码格式提取 | 第37-39页 |
·网页信息提取 | 第39-46页 |
·已提取 URL 预处理 | 第46页 |
·剔除已提取 URL | 第46-48页 |
·Hadoop 云平台的搭建与编程环境的设置 | 第48-54页 |
·Hadoop 云平台的搭建 | 第48-51页 |
·基于 eclipse 的 Hadoop 开发环境设置 | 第51-54页 |
·实验结果与分析 | 第54-56页 |
·程序运行说明 | 第54-55页 |
·实验结果与分析 | 第55-56页 |
·本章小结 | 第56-57页 |
第五章 Web 垃圾信息过滤在 Hadoop 上的实现 | 第57-72页 |
·基于 Hadoop 的 Web 垃圾信息过滤方法的实现 | 第57-68页 |
·平均值计算 | 第61-63页 |
·协方差计算 | 第63-65页 |
·协方差矩阵预处理 | 第65-66页 |
·变量筛选求解回归系数及模型生成 | 第66-67页 |
·结果文件输出 | 第67-68页 |
·实验结果与分析 | 第68-71页 |
·程序运行说明 | 第68页 |
·实验结果与分析 | 第68-71页 |
·本章小结 | 第71-72页 |
第六章 总结与展望 | 第72-74页 |
·本文总结 | 第72页 |
·今后研究展望 | 第72-74页 |
致谢 | 第74-75页 |
参考文献 | 第75-78页 |
攻硕期间取得的研究成果 | 第78-79页 |