首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--翻译机论文

基于Hadoop的双语语料采集系统

摘要第4-5页
Abstract第5页
第1章 绪论第8-13页
    1.1 研究背景第8-9页
    1.2 双语语料采集研究现状第9-10页
    1.3 课题研究内容及意义第10-12页
    1.4 本文的内容组织结构第12-13页
第2章 面向 WEB 的双语语料采集技术第13-25页
    2.1 HADOOP 分布式系统概述第13-16页
        2.1.1 HDFS 简介第13-14页
        2.1.2 MapReduce 计算模型简介第14-16页
    2.2 网页的搜集技术第16-23页
        2.2.1 网页搜集的 Web 图原理与一般过程第17-18页
        2.2.2 网页爬行器关键技术第18-22页
        2.2.3 网络爬行器的主要问题第22-23页
    2.3 基于 HADOOP 的双语语料采集系统整体结构第23-24页
    2.4 本章小结第24-25页
第3章 面向 WEB 的大规模、多语言的网页爬行器第25-38页
    3.1 面向 WEB 的多语言网页爬行器的系统设计目标第25-26页
    3.2 面向 WEB 的多语言网页爬行器的总体设计第26-27页
    3.3 面向 WEB 的多语言网页爬行器系统实现第27-34页
        3.3.1 URL 规格化子模块第27-29页
        3.3.2 任务调度子模块第29页
        3.3.3 网页下载子模块第29-31页
        3.3.4 网页解析模块第31-32页
        3.3.5 URL 去重更新子模块第32-33页
        3.3.6 Robots 规则和 DNS 缓存功能模块第33-34页
    3.4 相关实验和系统评测第34-37页
        3.4.1 DNS 分布式缓存模块性能评价第34-36页
        3.4.2 面向 Web 的多语言网页爬行器系统运行情况第36-37页
    3.5 本章小结第37-38页
第4章 面向双语网站的增量爬行器技术与系统实现第38-48页
    4.1 系统的设计目标第38页
    4.2 网页的变化第38-40页
        4.2.1 网页更新模型第39页
        4.2.2 变化的估计第39-40页
    4.3 面向双语站点增量爬行器系统设计实现第40-44页
        4.3.1 双语站点增量爬行器系统基本框架第41-42页
        4.3.2 增量爬行策略第42-44页
    4.4 相关实验和系统评测第44-47页
        4.4.1 双语站点的更新规律实验第44-45页
        4.4.2 系统的运行情况第45-47页
    4.5 本章小结第47-48页
第5章 其他语料获取方式和相关实验第48-55页
    5.1 基于互联网词典的元搜索语料获取第48-52页
        5.1.1 基于互联网词典元搜索方式语料获取方法第49页
        5.1.2 语料获取结构图第49-50页
        5.1.3 针对必应词典的获取示例第50-51页
        5.1.4 获取结果和分析第51-52页
    5.2 一种互联网双语句对数的估计方法第52-54页
    5.3 本章小结第54-55页
结论第55-57页
参考文献第57-61页
致谢第61页

论文共61页,点击 下载论文
上一篇:面向云隐私保护系统的安全认证与授权技术的研究与实现
下一篇:云计算环境下保护用户隐私的文档查询系统的设计与实现