网络环境下获取汉维篇章级平行语料的研究

摘要	第1-4页
ABSTRACT	第4-8页
第一章引言	第8-13页
·概述	第8-11页
·研究背景	第8-9页
·国内外研究现状分析	第9-11页
·主要研究目标和内容	第11页
·研究目标	第11页
·研究内容	第11页
·论文组织结构	第11-13页
第二章基于 Web 的双语平行语料库获取的总体架构	第13-16页
·基本流程	第13-14页
·任务分析与界定	第14-15页
·双语网站网页的下载	第14页
·网页的去噪	第14-15页
·双语平行网页获取	第15页
·本章小结	第15-16页
第三章网页下载工具	第16-25页
·研究现状	第16-17页
·正常下载	第17-22页
·网页编码识别	第18-20页
·链接处理	第20-21页
·提高效率的方法	第21-22页
·附加功能介绍	第22-23页
·实验与分析	第23-24页
·秋秋网页下载器	第23-24页
·实验结果与分析	第24页
·本章小结	第24-25页
第四章网页去噪	第25-38页
·相关研究	第25-26页
·系统介绍	第26-27页
·源码的预处理	第27-31页
·删除与网页布局无关的源码	第27-28页
·特殊字符的转换	第28页
·删除隐藏的源码	第28-29页
·处理网页链接	第29-31页
·源码的划分	第31-32页
·基础知识	第31页
·算法描述	第31-32页
·网页去噪	第32-37页
·算法描述	第33-34页
·实验设置	第34-37页
·本章小结	第37-38页
第五章双语候选平行文本获取	第38-45页
·相关研究	第38-40页
·URL 匹配	第38-39页
·网页结构相似度	第39-40页
·获取候选平行文本对	第40-44页
·基于共现信息的方法	第40-42页
·基于文本长度的方法	第42-43页
·基于文本长度和共现信息的方法	第43-44页
·本章小结	第44-45页
第六章双语平行文本识别	第45-51页
·相关研究	第45-46页
·基于双语网页内容互译性的特征	第45页
·句对齐翻译模型	第45-46页
·识别平行网页对	第46-49页
·基于词数比例的识别方法	第47页
·基于文本内容互译的识别方法	第47-48页
·SVM 分类器	第48-49页
·实验与分析	第49-50页
·数据描述与实验设置	第49页
·实验结果	第49-50页
·本章小结	第50-51页
第七章汉维双语平行文本自动获取系统的实现	第51-54页
·主要进程介绍	第51-52页
·进程间的数据传递	第52页
·系统性能介绍	第52-53页
·本章小结	第53-54页
第八章总结	第54-57页
·总结	第54-56页
·下一步工作	第56-57页
参考文献	第57-60页
附录一主要汉维双语网站列表	第60-61页
附录二全角半角转换表	第61-62页
附录三可处理的网页文件类型	第62-63页
附录四系统界面	第63-65页
研究生期间发表论文	第65-66页
致谢	第66页