首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于Mahout的MinHash算法研究与实现

摘要第3-5页
ABSTRACT第5-6页
1 绪论第9-17页
    1.1 课题背景和意义第10-14页
    1.2 研究内容与主要贡献第14-16页
        1.2.1 研究内容第14-15页
        1.2.2 主要贡献第15-16页
    1.3 论文结构第16-17页
2 MinHash 算法原理第17-24页
    2.1 Jaccard 相似度第18-19页
    2.2 LSH 算法第19-20页
    2.3 MinHash 算法第20-23页
    2.4 本章小结第23-24页
3 Mahout 分布式平台第24-36页
    3.1 Mahout 分布式数据处理平台第24-25页
        3.1.1 推荐引擎和协作筛选第24页
        3.1.2 聚类第24-25页
        3.1.3 分类第25页
    3.2 MapReduce 算法模型第25-27页
    3.3 Mahout 平台数据预处理第27-35页
        3.3.1 数据预处理第27-29页
        3.3.2 文本文件序列化过程第29-31页
        3.3.3 文本文件向量化过程第31-35页
    3.4 本章小结第35-36页
4 任意文件对的精确 Jaccard 相似度计算第36-43页
    4.1 Jaccard 相似度集中式算法第36-38页
    4.2 Jaccard 相似度分布式算法第38-40页
    4.3 实验第40-42页
        4.3.1 实验过程第40-41页
        4.3.2 实验结果及分析第41-42页
    4.4 本章小结第42-43页
5 Mahout 中 MinHash 算法分析与实现第43-53页
    5.1 Mahout 中 MinHash 算法实现第43-46页
        5.1.1 MinHash 算法参数和程序绑定第44-45页
        5.1.2 哈希函数选取过程第45页
        5.1.3 MinHash 算法主逻辑过程第45-46页
    5.2 Mahout 中错误 MinHash 算法第46-47页
    5.3 Mahout 中 MinHash 算法的修正第47-48页
    5.4 实验第48-52页
        5.4.1 MinHash 算法实验结果第48-49页
        5.4.2 错误 MinHash 算法实验分析第49-50页
        5.4.3 正确 MinHash 算法实验分析第50-52页
    5.5 本章小结第52-53页
6 总结与展望第53-55页
    6.1 总结第53页
    6.2 展望第53-55页
参考文献第55-59页
攻读硕士学位期间发表的学术论文第59-60页
致谢第60页

论文共60页,点击 下载论文
上一篇:基于中心—外围模型的劳动生产率差异对中国纺织产业转移的影响研究
下一篇:基于Hadoop的邮件敏感词检测与告警技术研究