首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

网络环境下获取汉维篇章级平行语料的研究

摘要第1-4页
ABSTRACT第4-8页
第一章 引言第8-13页
   ·概述第8-11页
     ·研究背景第8-9页
     ·国内外研究现状分析第9-11页
   ·主要研究目标和内容第11页
     ·研究目标第11页
     ·研究内容第11页
   ·论文组织结构第11-13页
第二章 基于 Web 的双语平行语料库获取的总体架构第13-16页
   ·基本流程第13-14页
   ·任务分析与界定第14-15页
     ·双语网站网页的下载第14页
     ·网页的去噪第14-15页
     ·双语平行网页获取第15页
   ·本章小结第15-16页
第三章 网页下载工具第16-25页
   ·研究现状第16-17页
   ·正常下载第17-22页
     ·网页编码识别第18-20页
     ·链接处理第20-21页
     ·提高效率的方法第21-22页
   ·附加功能介绍第22-23页
   ·实验与分析第23-24页
     ·秋秋网页下载器第23-24页
     ·实验结果与分析第24页
   ·本章小结第24-25页
第四章 网页去噪第25-38页
   ·相关研究第25-26页
   ·系统介绍第26-27页
   ·源码的预处理第27-31页
     ·删除与网页布局无关的源码第27-28页
     ·特殊字符的转换第28页
     ·删除隐藏的源码第28-29页
     ·处理网页链接第29-31页
   ·源码的划分第31-32页
     ·基础知识第31页
     ·算法描述第31-32页
   ·网页去噪第32-37页
     ·算法描述第33-34页
     ·实验设置第34-37页
   ·本章小结第37-38页
第五章 双语候选平行文本获取第38-45页
   ·相关研究第38-40页
     ·URL 匹配第38-39页
     ·网页结构相似度第39-40页
   ·获取候选平行文本对第40-44页
     ·基于共现信息的方法第40-42页
     ·基于文本长度的方法第42-43页
     ·基于文本长度和共现信息的方法第43-44页
   ·本章小结第44-45页
第六章 双语平行文本识别第45-51页
   ·相关研究第45-46页
     ·基于双语网页内容互译性的特征第45页
     ·句对齐翻译模型第45-46页
   ·识别平行网页对第46-49页
     ·基于词数比例的识别方法第47页
     ·基于文本内容互译的识别方法第47-48页
     ·SVM 分类器第48-49页
   ·实验与分析第49-50页
     ·数据描述与实验设置第49页
     ·实验结果第49-50页
   ·本章小结第50-51页
第七章 汉维双语平行文本自动获取系统的实现第51-54页
   ·主要进程介绍第51-52页
   ·进程间的数据传递第52页
   ·系统性能介绍第52-53页
   ·本章小结第53-54页
第八章 总结第54-57页
   ·总结第54-56页
   ·下一步工作第56-57页
参考文献第57-60页
附录一 主要汉维双语网站列表第60-61页
附录二 全角半角转换表第61-62页
附录三 可处理的网页文件类型第62-63页
附录四 系统界面第63-65页
研究生期间发表论文第65-66页
致谢第66页

论文共66页,点击 下载论文
上一篇:基于后缀树的维吾尔文网页聚类算法的设计与实现
下一篇:基于IPv6的Chord路由模型研究