首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于Web的大规模平行语料库构建方法研究

中文摘要第1-6页
Abstract第6-10页
第一章 绪论第10-19页
   ·概述第10-18页
     ·研究背景第10-11页
     ·国内外研究现状第11-18页
   ·主要研究内容第18页
   ·论文的组织结构第18-19页
第二章 Web信息抽取方法第19-30页
   ·自动提取Web信息的关键技术第19-20页
   ·自动提取网页信息的常用方法第20-27页
     ·基于统计理论的方法第20-22页
     ·基于视觉的方法第22-24页
     ·基于DOM树结构的方法第24-25页
     ·改进的基于DOM树结构的方法第25-26页
     ·基于模板的方法第26-27页
   ·Web信息抽取方法对比第27-28页
   ·本章小结第28-30页
第三章 基于搜索引擎获取双语混合网页第30-45页
   ·引言第30-31页
   ·基础概念和方法概述第31-34页
     ·基础概念第31-32页
     ·方法概述第32-34页
   ·双语混合网页的获取第34-40页
     ·双语检索词的构建第34-35页
     ·记录包装器的产生第35-38页
     ·数据记录的获取第38-39页
     ·候选双语混合网页的获取第39-40页
   ·双语混合网页的验证第40-42页
   ·实验结果及分析第42-44页
     ·实验数据第42页
     ·双语混合网页验证方法的评测第42-44页
     ·数据记录抽取方法的评测第44页
   ·本章小结第44-45页
第四章 基于双语混合网页的平行资源获取方法第45-61页
   ·设计思路和系统架构第45-47页
   ·平行资源的自动获取第47-55页
     ·网页数据域的识别第47-48页
     ·文本预处理第48-50页
     ·种子的获取第50-51页
     ·包装器的构建第51-53页
     ·平行资源对的过滤第53-55页
   ·实验结果及分析第55-60页
     ·平行语料获取算法的评测第55-58页
     ·候选平行资源对的过滤方法的评测第58-59页
     ·网页数据域识别方法的评测第59-60页
   ·本章小结第60-61页
第五章 总结与展望第61-64页
   ·工作总结第61-62页
   ·工作展望第62-64页
参考文献第64-70页
攻读学位期间公开发表的论文第70-71页
致谢第71页

论文共71页,点击 下载论文
上一篇:基于神经网络的入侵检测系统的研究与设计
下一篇:异步Web服务组合分析与验证方法研究