可比较语料库的研究与构建

摘要	第1-5页
Abstract	第5-10页
1 绪论	第10-17页
·课题来源	第10页
·研究背景	第10-13页
·语料库	第10-11页
·基于语料库的自然语言处理技术	第11页
·平行语料库	第11-12页
·可比较语料库	第12-13页
·可比较语料库研究现状	第13-14页
·基于可比较语料库的应用	第13-14页
·可比较语料库的构建现状	第14页
·本文的工作	第14-16页
·本文的主要研究内容	第15页
·本文的创新之处	第15-16页
·本文的组织结构	第16-17页
2 增量搜集技术的研究与实现	第17-38页
·引言	第17页
·相关研究	第17-21页
·基于索引页的新网页发现	第21-27页
·索引页介绍	第21-22页
·基于网页标签的索引页判别	第22-24页
·基于索引页的新网页发现	第24-27页
·基于Heritrix的增量搜集系统	第27-35页
·Heritrix介绍	第27页
·选取Heritrix的原因	第27-29页
·Heritrix增量爬取原理	第29-34页
·基于Heritrix的增量新网页获取	第34-35页
·系统测试	第35-37页
·运行环境	第35页
·种子 URL	第35-36页
·文件过滤	第36页
·运行结果	第36-37页
·本章小结	第37-38页
3 中文未登录词的翻译	第38-56页
·引言	第38页
·相关研究	第38-41页
·基于 Anchor Text的方法	第39页
·音译方法	第39-40页
·基于平行语料的方法	第40页
·基于网络挖掘的方法	第40-41页
·问题描述	第41页
·本文提出的未登录词翻译方法	第41-53页
·未登录词翻译特征分析	第42-44页
·未登录词和对应翻译词的共现方式分析	第44-45页
·系统框架	第45-53页
·实验设计	第53-55页
·词典资源	第53页
·测试数据	第53-55页
·实验结果	第55页
·本章小结	第55-56页
4 可比较语料库的构建架构	第56-66页
·数据集增量更新部分	第56-57页
·对齐部分	第57-61页
·关键词提取模块	第57页
·关键词翻译模块	第57-58页
·检索模块	第58-60页
·文档对齐模块	第60-61页
·实验结果分析	第61-65页
·源语言文档集和目标语言文档集	第61-62页
·实验结果分析	第62-65页
·本章小结	第65-66页
5 结论	第66-67页
·本文的工作	第66页
·进一步的研究工作	第66-67页
参考文献	第67-73页
攻读硕士学位期间发表学术论文情况	第73-74页
攻读硕士学位期间参加的科研项目	第74-75页
致谢	第75-76页