首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于WEB的汉英双语语料获取研究

摘要第1-5页
ABSTRACT第5-9页
第一章 绪论第9-16页
   ·选题背景及意义第9-10页
     ·选题背景第9页
     ·选题意义第9-10页
   ·国内外研究现状第10-14页
     ·双语语料获取研究现状第10-12页
     ·正文提取研究现状第12-14页
   ·内容安排第14-16页
第二章 背景知识介绍第16-28页
   ·WPDE调研第16-19页
     ·候选网页的选择与获取第16页
     ·候选平行网页对的抽取第16-17页
     ·平行网页对验证第17-19页
   ·关于挖掘包含混合双语语料URL的思考第19-22页
     ·双语网站发展的现状第19-20页
     ·相关网站包含双语语料URL的抓取第20-22页
   ·Web结构分析概述第22页
   ·Web、DOM介绍及HTML语义化第22-24页
   ·双语相关主题类网站结构分析第24-25页
     ·门户类网站双语学习频道网页结构分析第24页
     ·专业双语学习网站结构分析第24-25页
   ·爬取页面的存储与管理第25-27页
     ·爬取文档的类型特点第25页
     ·爬取文档的存储方法第25-26页
     ·爬取文档的管理第26-27页
   ·本章小结第27-28页
第三章 小规模简单双语语料库构建方法介绍第28-34页
   ·小规模简单双语语料获取过程概述第28页
   ·基于网页源码特征的单一网站语料获取方法第28-31页
   ·基于志愿者协作的语料库构建工具第31-33页
   ·本章小结第33-34页
第四章 基于WEB的双语语料库的构建系统第34-42页
   ·基于WEB的汉英双语语料库构建方案第34-40页
     ·研究方法第35-39页
     ·特殊情况处理第39-40页
   ·研究中的难点及目标第40页
     ·研究中的难点及解决方案第40页
   ·本章小结第40-42页
第五章 相关实验及结果分析第42-44页
   ·实验设计第42-43页
     ·门户类网站双语学习频道提取实验结果第42页
     ·混合类网页语料提取实验结果第42-43页
   ·结果分析第43-44页
第六章 总结第44-46页
   ·工作总结第44页
   ·工作展望第44-46页
附录1第46-48页
 完整HTML源码特殊字符转换表第46-47页
 预定义字符串列表第47-48页
参考文献第48-52页
致谢第52页

论文共52页,点击 下载论文
上一篇:基于云计算的网络化操作系统平台任务调度的研究
下一篇:Xen虚拟化环境下的文件透明加密