双语语料获取系统关键技术的研究与实现

摘要	第1-6页
ABSTRACT	第6-11页
第1章引言	第11-18页
·研究背景	第11-13页
·双语语料建设现状	第13-15页
·国内研究现状	第13-15页
·国外研究现状	第15页
·主要研究目标和研究内容	第15-18页
·研究目标	第15-16页
·研究内容	第16-18页
第2章相关开源工具介绍	第18-25页
·爬虫开源工具 NUTCH	第18-23页
·Nutch 的技术背景介绍	第18-19页
·Nutch 网络爬虫	第19-22页
·基于 Nutch 查询的实现	第22-23页
·开源工具 LEMUR	第23-24页
·Lemur 概述	第23页
·Lemur 特点	第23-24页
·本章小结	第24-25页
第3章需求分析与总体设计	第25-33页
·需求分析	第25-28页
·机器翻译	第25页
·跨语言信息检索	第25-27页
·平行语料库的构建	第27-28页
·基于 Web 构建大规模平行语料库	第28页
·总体设计	第28-32页
·设计概述	第28-30页
·总体设计	第30-32页
·本章小结	第32-33页
第4章面向爱词霸的双语语料获取模块的实现	第33-41页
·获取双语语料的基本流程	第33-35页
·双语语料自动获取的前期准备工作	第35页
·抓取网站	第35页
·抓取底表的制定	第35页
·基于爱词霸的双语语料获取	第35-38页
·网页的处理	第36页
·句子对齐	第36-38页
·“爱词霸”基于模板匹配的双语语料自动获取	第38-39页
·本章小结	第39-41页
第5章面向中国期刊网的大规模双语语料获取模块的实现	第41-64页
·基于 WEB 的语料库获取系统概况	第41-45页
·现有研究介绍	第42-43页
·各系统比较	第43-45页
·面向中国期刊网的双语语料获取	第45-48页
·中国期刊全文数据库页面信息分析	第45-46页
·中国期刊全文数据库结构分析	第46-48页
·基本流程	第48-50页
·双语语料的获取	第50-56页
·期刊总目录的获取	第50-53页
·双语网页的获取	第53-56页
·双语平行语料自动获取的实现	第56-60页
·系统的主要模块介绍	第56-57页
·模块间的数据传输	第57-58页
·数据库设计	第58-60页
·双语平行句对的获取	第60-63页
·双语平行句对分析	第60-61页
·难点分析与解决方案	第61-62页
·事务功能	第62-63页
·本章小结	第63-64页
第6章面向专利查询的大规模双语语料获取的功能模块	第64-73页
·专利网站的分析	第64-67页
·专利网站的相关研究	第67-68页
·解决的关键问题	第68-69页
·专利平行语料的自动获取	第69-71页
·中文专利数据的自动获取	第69页
·数据的下载	第69-70页
·英文专利数据的自动获取	第70-71页
·处理流程	第71-72页
·本章小结	第72-73页
第7章实验结果与软件测试	第73-82页
·面向爱词霸网站的双语语料获取	第73-74页
·实验环境	第73页
·实验结果	第73-74页
·评测指标	第74页
·面向中国期刊网的双语语料获取	第74-76页
·系统性能介绍	第74-75页
·系统成果	第75-76页
·面向专利的大规模双语语料获取	第76-77页
·获取的双语对齐语料在跨语言信息检索中的应用效果	第77-81页
·本章小结	第81-82页
结论	第82-84页
致谢	第84-85页
参考文献	第85-88页