半监督的命名实体识别
致谢 | 第1-6页 |
摘要 | 第6-7页 |
ABSTRACT | 第7-12页 |
1 引言 | 第12-17页 |
·课题背景 | 第12页 |
·研究历史 | 第12-15页 |
·语言因素 | 第13页 |
·文本类型或领域因素 | 第13-14页 |
·实体类型因素 | 第14-15页 |
·后续内容 | 第15页 |
·相关应用 | 第15-17页 |
2 命名实体识别相关技术 | 第17-22页 |
·研究主体和难点 | 第17-18页 |
·研究主体 | 第17页 |
·命名实体识别特点和难点 | 第17-18页 |
·国内外主要技术和方法 | 第18-19页 |
·基于规则的方法 | 第18页 |
·基于统计的方法 | 第18页 |
·规则和统计结合的方法 | 第18-19页 |
·解决命名实体识别问题的技术和算法 | 第19-22页 |
·监督式的学习 | 第19-20页 |
·半监督式的学习 | 第20-21页 |
·无监督式的学习 | 第21-22页 |
3 半监督的NER系统 | 第22-33页 |
·训练子系统 | 第23-29页 |
·预处理 | 第23页 |
·通过种子检索网页 | 第23-24页 |
·构造种子特征矩阵 | 第24-28页 |
·根据特征矩阵选出有效特征 | 第28-29页 |
·选出候选实体 | 第29页 |
·噪音过滤器 | 第29页 |
·标注子系统 | 第29-30页 |
·系统问题分析 | 第30-33页 |
·训练类中的噪音问题 | 第31页 |
·正例负例的平衡问题 | 第31-32页 |
·剩余类噪音问题 | 第32-33页 |
4 噪音过滤技术 | 第33-41页 |
·生成命名实体列表 | 第33-34页 |
·基于词汇特征的噪音过滤 | 第34-37页 |
·词汇特征相关噪音过滤 | 第35-36页 |
·平衡正例数和候选实体个数 | 第36页 |
·特征值的计算和阈值设定 | 第36-37页 |
·信息冗余的噪音过滤 | 第37-39页 |
·噪音过滤方法的结合 | 第39页 |
·统计语义噪音过滤 | 第39-40页 |
·结论 | 第40-41页 |
5 ICTCLAS上的应用 | 第41-44页 |
·ICTCLAS简介 | 第41页 |
·ICTCLAS作原理 | 第41-44页 |
·原子切分 | 第41-42页 |
·初次切分 | 第42页 |
·N最短路径 | 第42-43页 |
·用户词典 | 第43-44页 |
6 实验结果 | 第44-53页 |
·影响噪音过滤性能的两个因素 | 第44页 |
·实验数据分析 | 第44-51页 |
·词汇特征噪音过滤实验结果 | 第47-49页 |
·信息冗余噪音过滤实验结果 | 第49-50页 |
·两种噪音过滤方法结合实验结果 | 第50-51页 |
·在ICTCLAS上有应用结果 | 第51页 |
·实验结果分析 | 第51-53页 |
7 结论 | 第53-55页 |
·本文工作总结 | 第53-54页 |
·进一步工作 | 第54-55页 |
参考文献 | 第55-58页 |
作者简历 | 第58-60页 |
学位论文数据集 | 第60页 |