肝癌领域精准医学语料标注
摘要 | 第8-10页 |
Abstract | 第10-11页 |
1.前言 | 第12-16页 |
1.1 研究背景与意义 | 第12-13页 |
1.2 研究内容 | 第13-14页 |
1.3 研究方法与技术路线 | 第14-16页 |
2.国内外研究现状 | 第16-27页 |
2.1 生物医学命名实体语料库 | 第16-18页 |
2.2 电子病历命名实体语料库 | 第18页 |
2.3 生物医学相关本体与医学主题词表 | 第18-22页 |
2.3.1 基因本体 | 第19页 |
2.3.2 MeSH | 第19-20页 |
2.3.3 UMLS | 第20页 |
2.3.4 精准医学本体 | 第20-22页 |
2.4 语料标注方法 | 第22-24页 |
2.4.1 手工标注 | 第23页 |
2.4.2 自动标注 | 第23-24页 |
2.5 语料标注工具 | 第24-27页 |
3 语料标注 | 第27-37页 |
3.1 待标注文本筛选 | 第27-28页 |
3.2 Brat标注工具准备工作 | 第28-29页 |
3.2.1 Brat工具安装 | 第28页 |
3.2.2 数据导入 | 第28-29页 |
3.3 标注规范的制定流程 | 第29-30页 |
3.4 命名实体和实体关系标注 | 第30-32页 |
3.4.1 命名实体标注 | 第30-31页 |
3.4.2 实体关系标注 | 第31-32页 |
3.5 Brat工具语料标注的基本流程 | 第32-34页 |
3.6 .预标注问题总结 | 第34-37页 |
3.6.1 命名实体类型未定义 | 第34-35页 |
3.6.2 存在嵌套结构的实体标注 | 第35-36页 |
3.6.3 实体间关系存在方向性 | 第36页 |
3.6.4 实体间关系未定义 | 第36-37页 |
4.标注结果 | 第37-45页 |
4.1 Brat工具标注结果输出与解读 | 第37-38页 |
4.2 标注结果统计 | 第38-43页 |
4.3 与Pubator自动标注结果对比 | 第43-45页 |
5.肝癌领域精准医学语料标注规范 | 第45-49页 |
5.1 明确需要标注的对象 | 第45页 |
5.2 标点符号标注规则 | 第45页 |
5.3 冠词以及表示数量的词语不标注 | 第45-46页 |
5.4 实体名称未紧靠在一起的复合词标注 | 第46-47页 |
5.5 基因和蛋白质的标注 | 第47-48页 |
5.6 全称和缩写的标注 | 第48-49页 |
6 结论与展望 | 第49-51页 |
6.1 研究结论 | 第49页 |
6.2 研究不足 | 第49页 |
6.3 后续工作和研究展望 | 第49-51页 |
参考文献 | 第51-55页 |
附录A 210篇标注文本题录信息 | 第55-64页 |
作者在学期间取得的学术成果 | 第64-65页 |
主要简历 | 第65-66页 |
致谢 | 第66页 |