基于聚类的英汉人名消歧研究

摘要	第1-5页
Abstract	第5-10页
第1章引言	第10-13页
·研究背景与意义	第10-11页
·研究难点	第11-12页
·本文的组织	第12-13页
第2章相关技术和背景	第13-33页
·人名消歧与相关方法的比较	第13页
·人名消歧常用方法	第13-16页
·向量空间模型聚类方法	第14页
·社会网络模型聚类方法	第14-15页
·文本分类方法	第15-16页
·模型生成方法	第16页
·英文人名消歧评测简介	第16-27页
·第一届英文人名消歧评测(WePS-1)	第17-22页
·第二届英文人名消歧评测(WePS-2)	第22-27页
·中文人名消歧评测(CIPS-SIGHAN 2010 BAKEOFF-3)介绍	第27-32页
·本章小节	第32-33页
第3章基于层次聚类的英文人名消歧方法及实现	第33-47页
·核心思想及主体框架	第33页
·语料中的数据预处理	第33-34页
·数据加权合并、去停用词、词根还原即格式化输出	第33-34页
·存储规范设计	第34页
·缺失rank 的处理	第34页
·特征的选取	第34-37页
·URL、Email 的提取及优化	第34-35页
·提取正文内容	第35页
·命名实体的提取	第35页
·微型格式(Microformats)的提取	第35-36页
·干扰文档分析	第36-37页
·聚类方法的选择	第37-39页
·K-Means 算法	第37-38页
·自底向上的层次聚类算法	第38-39页
·实验设计	第39-40页
·实验评测语料	第39页
·实验结果评价方法	第39页
·实验环境配置	第39-40页
·主要实验结果分析	第40-46页
·命名实体消歧效果及分析	第40-41页
·正文内容消歧效果及分析	第41-42页
·URL 消歧效果及分析	第42-43页
·特征融合消歧效果及分析	第43页
·特征融合后的聚类数目设定	第43-46页
·本章小节	第46-47页
第4章基于两步聚类的中文人名消歧方法与实现	第47-60页
·前言	第47页
·特征抽取	第47-49页
·跳跃树(jumping-tree)	第47-48页
·基于跳跃距离(Jumping-Distance，JD)的N-Gram	第48-49页
·消歧系统的实现	第49-50页
·系统一	第49-50页
·系统二	第50页
·两步聚类算法	第50-56页
·AP 聚类算法	第50-56页
·两步AP 聚类	第56页
·实验设计与结果分析	第56-59页
·实验评测语料	第56-57页
·实验结果评测方案	第57页
·处理干扰(discarded)文档	第57页
·两步聚类评测	第57-59页
·本章小结	第59-60页
第5章总结与展望	第60-62页
·本文总结	第60-61页
·展望	第61-62页
参考文献	第62-67页
攻读学位期间公开发表的论文	第67-68页
致谢	第68-69页