首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于ETL及GBDT题库并行去重的应用研究

摘要第9-10页
ABSTRACT第10页
第一章 绪论第11-17页
    1.1 研究背景第11-12页
    1.2 研究意义第12-13页
    1.3 国内外研究现状第13-15页
    1.4 研究思路及主要工作第15-16页
    1.5 论文组织结构第16-17页
第二章 相关技术综述第17-25页
    2.1 搜索引擎架构第17-19页
        2.1.1 搜集第18页
        2.1.2 预处理第18页
        2.1.3 查询服务第18-19页
    2.2 网页预处理及正文提取第19-20页
        2.2.1 网页预处理第19页
        2.2.2 网页正文内容提取第19-20页
    2.3 ETL流程第20-21页
        2.3.1 数据清洗第20页
        2.3.2 数据转换第20-21页
        2.3.3 数据加载第21页
        2.3.4 异常处理第21页
    2.4 主流文本去重技术第21-24页
        2.4.1 MD5算法第21-22页
        2.4.2 基于距离的去重方法第22页
        2.4.3 文本去重算法之TF-IDF算法第22-23页
        2.4.4 simhash算法第23-24页
    2.5 本章小结第24-25页
第三章 ETL设计、特征提取及GBDT训练模型第25-43页
    3.1 ETL设计第25-30页
        3.1.1 数据仓库第25-26页
        3.1.2 ETL的设计第26-30页
    3.2 题库特征提取第30-34页
        3.2.1 文本预处理第30-31页
        3.2.2 特征选择与特征提取第31-34页
    3.3 GBDT算法与模型训练第34-41页
        3.3.1 GBDT算法简介第34-35页
        3.3.2 GBDT算法原理第35-37页
        3.3.3 使用GBDT模型训练第37-41页
    3.4 去重整体流程图第41-42页
    3.5 本章小结第42-43页
第四章 hadoop并行计算相似度第43-54页
    4.1 hadoop相关知识第43-46页
        4.1.1 HDFS第43-44页
        4.1.2 MapReduce第44-45页
        4.1.3 Hadoop计算流程第45-46页
    4.2 hadoop streaming第46-48页
        4.2.1 hadoop streaming实例第46页
        4.2.2 hadoop streaming注意事项第46-47页
        4.2.3 hadoop streaming优缺点第47页
        4.2.4 hadoop streaming流程图第47-48页
    4.3 hadoop计算题库文本相似度第48-53页
        4.3.1 hadoop文件读写第48页
        4.3.2 相似度计算第48-52页
        4.3.3 任务监控第52页
        4.3.4 优化第52-53页
    4.4 本章小结第53-54页
第五章 实验结果与分析第54-59页
    5.1 实验数据与环境第54-57页
        5.1.1 数据集第54页
        5.1.2 实验环境第54-55页
        5.1.3 实验结果数据第55-57页
    5.2 实验总体评测及结果分析第57-58页
    5.3 本章小结第58-59页
结束语第59-61页
致谢第61-62页
参考文献第62-65页
作者在学期间取得的学术成果第65页

论文共65页,点击 下载论文
上一篇:蒽醌分子线的合成和电子运输行为的研究
下一篇:萨克斯《卡门幻想曲》音乐及演奏分析