大规模网页中双语命名实体挖掘的研究与实现

摘要	第1-5页
Abstract	第5-8页
1 绪论	第8-13页
·研究背景	第8-9页
·研究意义	第9-10页
·研究现状	第10-12页
·本文的工作	第12-13页
2 从大规模网页中挖掘双语命名实体对	第13-27页
·问题描述	第13-14页
·双语命名实体挖掘系统	第14-16页
·难点分析	第16页
·相关知识与模型	第16-27页
·感知器算法	第16-17页
·支持向量机模型	第17-22页
·IBM机器翻译模型	第22-25页
·中文分词	第25-27页
3 候选互译对的抽取	第27-38页
·中文串的切分	第27-34页
·条件随机场(CRFs)模型	第28-29页
·基于子词的双层CRFs分词算法	第29-31页
·分词实验与评估	第31-34页
·利用后缀树抽取候选互译对	第34-38页
·后缀树	第34-35页
·利用后缀树抽取候选翻译串	第35-38页
4 双语命名实体的对齐	第38-47页
·基于SVM的对齐模型	第38-41页
·特征选择	第38-39页
·模型的训练	第39-40页
·模型的测试	第40-41页
·基于感知器的音译模型	第41-45页
·基本的音译模型	第42-43页
·将英语单词转换为音位序列	第43页
·基于感知器的二值分类	第43-44页
·实验结果	第44-45页
·基于IBM Model I的翻译质量评测模型	第45-47页
·候选互译对的词对齐	第45页
·基于IBM Mode I的翻译模型	第45-47页
5 后续处理	第47-50页
·英文实体的过滤、修正、以及归一化	第47-48页
·英文实体的噪音过滤	第47页
·英文实体的修正和归一化	第47-48页
·基于频度的噪声过滤	第48页
·基于前导词翻译前缀的过滤	第48-50页
6 实验与评估	第50-54页
·结果数据的质量分析方法	第50-51页
·基于维基百科知识的评估	第51-52页
·维基百科	第51页
·维基百科中的双语命名实体	第51-52页
·基于人工标注的评价	第52-53页
·与前人工作的比较	第53-54页
结论	第54-55页
参考文献	第55-58页
攻读硕士学位期间发表学术论文情况	第58-59页
致谢	第59-60页