首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

大规模网络数据中的平行句对抽取

摘要第1-5页
ABSTRACT第5-8页
第1章 绪论第8-15页
   ·课题背景第8-9页
   ·相关研究及现状第9-10页
   ·平行句对抽取的一般方法第10-13页
     ·网页集合构建第11-12页
     ·由网页集合中过滤数据源候选第12页
     ·对齐段落的抽取第12-13页
     ·由对齐段落候选中获得对齐句对第13页
     ·最终结果的过滤整理和去重第13页
   ·本文的研究内容和章节安排第13-15页
第2章 句对挖掘的系列算法第15-30页
   ·引言第15页
   ·从网页中抽取对齐段落的方法第15-25页
     ·针对实例进行网络数据源分析第15-16页
     ·用于对照网页的自适应模板匹配句对挖掘算法第16-21页
     ·用于平行网页的最大节点匹配句对挖掘方法第21-25页
   ·将对齐段落转化为对齐句对第25-26页
     ·按照语言特征进行句对切分第26页
     ·基于长度的句对齐算法第26页
   ·句对评分过滤和句对整理方法第26-29页
     ·结合多参数的句对质量预测方法第27-28页
     ·对于结果句对的字符级整理第28-29页
   ·本章小结第29-30页
第3章 挖掘流程及其实现第30-40页
   ·引言第30页
   ·数据集简单分片的大规模对照网页挖掘步骤第30-33页
     ·单次运行的数据过滤第30-32页
     ·网页相互独立的挖掘流程第32页
     ·数据集合并的增量更新方法第32-33页
   ·按子集划分的分布式平行网页挖掘流程第33-39页
     ·网页数据索引信息的简历第33-34页
     ·通过MapReduce 进行网页的配对第34-36页
     ·配对网页分散问题的解决第36-37页
     ·应用分布式的增量更新第37-39页
   ·本章小结第39-40页
第4章 挖掘效果的改进第40-47页
   ·引言第40页
   ·针对实际数据源改进句对挖掘系列算法第40-43页
     ·添加网页标签预处理的双语网页判断第40-41页
     ·用增量匹配完善平行网页对选取第41-43页
   ·平行文本段抽取算法的改进第43-45页
     ·加入节点特征的对照网页文本段抽取第43-44页
     ·用网页结构的实时处理改进平行网页文本段抽取第44-45页
   ·句对过滤和整理的改进第45-46页
     ·句对评分和过滤的调整策略第45页
     ·针对网络数据源挖掘结果的句对整理第45-46页
   ·本章小结第46-47页
第5章 效果评估第47-52页
   ·引言第47页
   ·平行句对的评测参数第47页
   ·平行句对的具体评测内容第47-51页
     ·随机抽样检测召回率第47-48页
     ·人工评价结果句对可用性第48-50页
     ·通过检索关键词进行覆盖率评估第50-51页
   ·本章小结第51-52页
结论第52-54页
参考文献第54-57页
攻读硕士学位期间发表的论文及其它成果第57-59页
致谢第59页

论文共59页,点击 下载论文
上一篇:基于网络论坛的舆论领袖发现技术研究
下一篇:基于DNS数据流的僵尸网络检测技术研究