基于Web的大规模平行语料库构建方法研究

中文摘要	第1-6页
Abstract	第6-10页
第一章绪论	第10-19页
·概述	第10-18页
·研究背景	第10-11页
·国内外研究现状	第11-18页
·主要研究内容	第18页
·论文的组织结构	第18-19页
第二章 Web信息抽取方法	第19-30页
·自动提取Web信息的关键技术	第19-20页
·自动提取网页信息的常用方法	第20-27页
·基于统计理论的方法	第20-22页
·基于视觉的方法	第22-24页
·基于DOM树结构的方法	第24-25页
·改进的基于DOM树结构的方法	第25-26页
·基于模板的方法	第26-27页
·Web信息抽取方法对比	第27-28页
·本章小结	第28-30页
第三章基于搜索引擎获取双语混合网页	第30-45页
·引言	第30-31页
·基础概念和方法概述	第31-34页
·基础概念	第31-32页
·方法概述	第32-34页
·双语混合网页的获取	第34-40页
·双语检索词的构建	第34-35页
·记录包装器的产生	第35-38页
·数据记录的获取	第38-39页
·候选双语混合网页的获取	第39-40页
·双语混合网页的验证	第40-42页
·实验结果及分析	第42-44页
·实验数据	第42页
·双语混合网页验证方法的评测	第42-44页
·数据记录抽取方法的评测	第44页
·本章小结	第44-45页
第四章基于双语混合网页的平行资源获取方法	第45-61页
·设计思路和系统架构	第45-47页
·平行资源的自动获取	第47-55页
·网页数据域的识别	第47-48页
·文本预处理	第48-50页
·种子的获取	第50-51页
·包装器的构建	第51-53页
·平行资源对的过滤	第53-55页
·实验结果及分析	第55-60页
·平行语料获取算法的评测	第55-58页
·候选平行资源对的过滤方法的评测	第58-59页
·网页数据域识别方法的评测	第59-60页
·本章小结	第60-61页
第五章总结与展望	第61-64页
·工作总结	第61-62页
·工作展望	第62-64页
参考文献	第64-70页
攻读学位期间公开发表的论文	第70-71页
致谢	第71页