大规模网络数据中的平行句对抽取

摘要	第1-5页
ABSTRACT	第5-8页
第1章绪论	第8-15页
·课题背景	第8-9页
·相关研究及现状	第9-10页
·平行句对抽取的一般方法	第10-13页
·网页集合构建	第11-12页
·由网页集合中过滤数据源候选	第12页
·对齐段落的抽取	第12-13页
·由对齐段落候选中获得对齐句对	第13页
·最终结果的过滤整理和去重	第13页
·本文的研究内容和章节安排	第13-15页
第2章句对挖掘的系列算法	第15-30页
·引言	第15页
·从网页中抽取对齐段落的方法	第15-25页
·针对实例进行网络数据源分析	第15-16页
·用于对照网页的自适应模板匹配句对挖掘算法	第16-21页
·用于平行网页的最大节点匹配句对挖掘方法	第21-25页
·将对齐段落转化为对齐句对	第25-26页
·按照语言特征进行句对切分	第26页
·基于长度的句对齐算法	第26页
·句对评分过滤和句对整理方法	第26-29页
·结合多参数的句对质量预测方法	第27-28页
·对于结果句对的字符级整理	第28-29页
·本章小结	第29-30页
第3章挖掘流程及其实现	第30-40页
·引言	第30页
·数据集简单分片的大规模对照网页挖掘步骤	第30-33页
·单次运行的数据过滤	第30-32页
·网页相互独立的挖掘流程	第32页
·数据集合并的增量更新方法	第32-33页
·按子集划分的分布式平行网页挖掘流程	第33-39页
·网页数据索引信息的简历	第33-34页
·通过MapReduce 进行网页的配对	第34-36页
·配对网页分散问题的解决	第36-37页
·应用分布式的增量更新	第37-39页
·本章小结	第39-40页
第4章挖掘效果的改进	第40-47页
·引言	第40页
·针对实际数据源改进句对挖掘系列算法	第40-43页
·添加网页标签预处理的双语网页判断	第40-41页
·用增量匹配完善平行网页对选取	第41-43页
·平行文本段抽取算法的改进	第43-45页
·加入节点特征的对照网页文本段抽取	第43-44页
·用网页结构的实时处理改进平行网页文本段抽取	第44-45页
·句对过滤和整理的改进	第45-46页
·句对评分和过滤的调整策略	第45页
·针对网络数据源挖掘结果的句对整理	第45-46页
·本章小结	第46-47页
第5章效果评估	第47-52页
·引言	第47页
·平行句对的评测参数	第47页
·平行句对的具体评测内容	第47-51页
·随机抽样检测召回率	第47-48页
·人工评价结果句对可用性	第48-50页
·通过检索关键词进行覆盖率评估	第50-51页
·本章小结	第51-52页
结论	第52-54页
参考文献	第54-57页
攻读硕士学位期间发表的论文及其它成果	第57-59页
致谢	第59页