首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--模式识别与装置论文

大规模网页中双语命名实体挖掘的研究与实现

摘要第1-5页
Abstract第5-8页
1 绪论第8-13页
   ·研究背景第8-9页
   ·研究意义第9-10页
   ·研究现状第10-12页
   ·本文的工作第12-13页
2 从大规模网页中挖掘双语命名实体对第13-27页
   ·问题描述第13-14页
   ·双语命名实体挖掘系统第14-16页
   ·难点分析第16页
   ·相关知识与模型第16-27页
     ·感知器算法第16-17页
     ·支持向量机模型第17-22页
     ·IBM机器翻译模型第22-25页
     ·中文分词第25-27页
3 候选互译对的抽取第27-38页
   ·中文串的切分第27-34页
     ·条件随机场(CRFs)模型第28-29页
     ·基于子词的双层CRFs分词算法第29-31页
     ·分词实验与评估第31-34页
   ·利用后缀树抽取候选互译对第34-38页
     ·后缀树第34-35页
     ·利用后缀树抽取候选翻译串第35-38页
4 双语命名实体的对齐第38-47页
   ·基于SVM的对齐模型第38-41页
     ·特征选择第38-39页
     ·模型的训练第39-40页
     ·模型的测试第40-41页
   ·基于感知器的音译模型第41-45页
     ·基本的音译模型第42-43页
     ·将英语单词转换为音位序列第43页
     ·基于感知器的二值分类第43-44页
     ·实验结果第44-45页
   ·基于IBM Model I的翻译质量评测模型第45-47页
     ·候选互译对的词对齐第45页
     ·基于IBM Mode I的翻译模型第45-47页
5 后续处理第47-50页
   ·英文实体的过滤、修正、以及归一化第47-48页
     ·英文实体的噪音过滤第47页
     ·英文实体的修正和归一化第47-48页
   ·基于频度的噪声过滤第48页
   ·基于前导词翻译前缀的过滤第48-50页
6 实验与评估第50-54页
   ·结果数据的质量分析方法第50-51页
   ·基于维基百科知识的评估第51-52页
     ·维基百科第51页
     ·维基百科中的双语命名实体第51-52页
   ·基于人工标注的评价第52-53页
   ·与前人工作的比较第53-54页
结论第54-55页
参考文献第55-58页
攻读硕士学位期间发表学术论文情况第58-59页
致谢第59-60页

论文共60页,点击 下载论文
上一篇:气街理论的初步研究
下一篇:韩国进步政党运动研究