基于Hadoop的双语语料采集系统

摘要	第4-5页
Abstract	第5页
第1章绪论	第8-13页
1.1 研究背景	第8-9页
1.2 双语语料采集研究现状	第9-10页
1.3 课题研究内容及意义	第10-12页
1.4 本文的内容组织结构	第12-13页
第2章面向 WEB 的双语语料采集技术	第13-25页
2.1 HADOOP 分布式系统概述	第13-16页
2.1.1 HDFS 简介	第13-14页
2.1.2 MapReduce 计算模型简介	第14-16页
2.2 网页的搜集技术	第16-23页
2.2.1 网页搜集的 Web 图原理与一般过程	第17-18页
2.2.2 网页爬行器关键技术	第18-22页
2.2.3 网络爬行器的主要问题	第22-23页
2.3 基于 HADOOP 的双语语料采集系统整体结构	第23-24页
2.4 本章小结	第24-25页
第3章面向 WEB 的大规模、多语言的网页爬行器	第25-38页
3.1 面向 WEB 的多语言网页爬行器的系统设计目标	第25-26页
3.2 面向 WEB 的多语言网页爬行器的总体设计	第26-27页
3.3 面向 WEB 的多语言网页爬行器系统实现	第27-34页
3.3.1 URL 规格化子模块	第27-29页
3.3.2 任务调度子模块	第29页
3.3.3 网页下载子模块	第29-31页
3.3.4 网页解析模块	第31-32页
3.3.5 URL 去重更新子模块	第32-33页
3.3.6 Robots 规则和 DNS 缓存功能模块	第33-34页
3.4 相关实验和系统评测	第34-37页
3.4.1 DNS 分布式缓存模块性能评价	第34-36页
3.4.2 面向 Web 的多语言网页爬行器系统运行情况	第36-37页
3.5 本章小结	第37-38页
第4章面向双语网站的增量爬行器技术与系统实现	第38-48页
4.1 系统的设计目标	第38页
4.2 网页的变化	第38-40页
4.2.1 网页更新模型	第39页
4.2.2 变化的估计	第39-40页
4.3 面向双语站点增量爬行器系统设计实现	第40-44页
4.3.1 双语站点增量爬行器系统基本框架	第41-42页
4.3.2 增量爬行策略	第42-44页
4.4 相关实验和系统评测	第44-47页
4.4.1 双语站点的更新规律实验	第44-45页
4.4.2 系统的运行情况	第45-47页
4.5 本章小结	第47-48页
第5章其他语料获取方式和相关实验	第48-55页
5.1 基于互联网词典的元搜索语料获取	第48-52页
5.1.1 基于互联网词典元搜索方式语料获取方法	第49页
5.1.2 语料获取结构图	第49-50页
5.1.3 针对必应词典的获取示例	第50-51页
5.1.4 获取结果和分析	第51-52页
5.2 一种互联网双语句对数的估计方法	第52-54页
5.3 本章小结	第54-55页
结论	第55-57页
参考文献	第57-61页
致谢	第61页