基于ETL及GBDT题库并行去重的应用研究

摘要	第9-10页
ABSTRACT	第10页
第一章绪论	第11-17页
1.1 研究背景	第11-12页
1.2 研究意义	第12-13页
1.3 国内外研究现状	第13-15页
1.4 研究思路及主要工作	第15-16页
1.5 论文组织结构	第16-17页
第二章相关技术综述	第17-25页
2.1 搜索引擎架构	第17-19页
2.1.1 搜集	第18页
2.1.2 预处理	第18页
2.1.3 查询服务	第18-19页
2.2 网页预处理及正文提取	第19-20页
2.2.1 网页预处理	第19页
2.2.2 网页正文内容提取	第19-20页
2.3 ETL流程	第20-21页
2.3.1 数据清洗	第20页
2.3.2 数据转换	第20-21页
2.3.3 数据加载	第21页
2.3.4 异常处理	第21页
2.4 主流文本去重技术	第21-24页
2.4.1 MD5算法	第21-22页
2.4.2 基于距离的去重方法	第22页
2.4.3 文本去重算法之TF-IDF算法	第22-23页
2.4.4 simhash算法	第23-24页
2.5 本章小结	第24-25页
第三章 ETL设计、特征提取及GBDT训练模型	第25-43页
3.1 ETL设计	第25-30页
3.1.1 数据仓库	第25-26页
3.1.2 ETL的设计	第26-30页
3.2 题库特征提取	第30-34页
3.2.1 文本预处理	第30-31页
3.2.2 特征选择与特征提取	第31-34页
3.3 GBDT算法与模型训练	第34-41页
3.3.1 GBDT算法简介	第34-35页
3.3.2 GBDT算法原理	第35-37页
3.3.3 使用GBDT模型训练	第37-41页
3.4 去重整体流程图	第41-42页
3.5 本章小结	第42-43页
第四章 hadoop并行计算相似度	第43-54页
4.1 hadoop相关知识	第43-46页
4.1.1 HDFS	第43-44页
4.1.2 MapReduce	第44-45页
4.1.3 Hadoop计算流程	第45-46页
4.2 hadoop streaming	第46-48页
4.2.1 hadoop streaming实例	第46页
4.2.2 hadoop streaming注意事项	第46-47页
4.2.3 hadoop streaming优缺点	第47页
4.2.4 hadoop streaming流程图	第47-48页
4.3 hadoop计算题库文本相似度	第48-53页
4.3.1 hadoop文件读写	第48页
4.3.2 相似度计算	第48-52页
4.3.3 任务监控	第52页
4.3.4 优化	第52-53页
4.4 本章小结	第53-54页
第五章实验结果与分析	第54-59页
5.1 实验数据与环境	第54-57页
5.1.1 数据集	第54页
5.1.2 实验环境	第54-55页
5.1.3 实验结果数据	第55-57页
5.2 实验总体评测及结果分析	第57-58页
5.3 本章小结	第58-59页
结束语	第59-61页
致谢	第61-62页
参考文献	第62-65页
作者在学期间取得的学术成果	第65页