临床文本数据信息挖掘去识别技术研究

摘要	第7-8页
ABSTRACT	第8页
1 绪论	第10-21页
1.1 研究背景和意义	第10-11页
1.1.1 研究背景	第10-11页
1.1.2 研究意义	第11页
1.2 国内外研究现状	第11-17页
1.2.1 国内外临床文本敏感信息界定	第11-12页
1.2.2 国内外命名实体识别研究现状	第12-14页
1.2.3 国内外临床文本命名实体识别研究现状	第14-15页
1.2.4 国内外临床文本去识别研究进展	第15-17页
1.2.5 文献小结	第17页
1.3 研究目标和内容	第17-19页
1.4 研究技术路线	第19-20页
1.5 论文结构安排	第20-21页
2 相关概念与技术基础	第21-25页
2.1 相关概念界定	第21-22页
2.1.1 临床文本概念界定	第21-22页
2.1.2 临床文本去识别概念界定	第22页
2.2 相关技术与工具介绍	第22-25页
2.2.3 CRF模型及工具	第22-24页
2.2.4 中文分词技术及工具	第24-25页
3 研究方法与数据来源	第25-28页
3.1 研究方法	第25-27页
3.2 数据来源	第27-28页
4 数据的标注与统计性描述	第28-34页
4.2 数据的标注	第28-29页
4.2.1 标注指南	第28-29页
4.2.2 标注过程	第29页
4.3 数据的统计性描述	第29-34页
4.3.1 不同级别医疗机构样本中PHI的分布密度	第29-31页
4.3.2 整体语料中PHI的分布密度和表达形式	第31-34页
5 临床文本去识别模型详细设计	第34-40页
5.1 临床文本的预处理	第34-35页
5.2 特征集构建	第35-36页
5.3 CRF模型训练与测试	第36-38页
5.4 后处理规则	第38-39页
5.5 评估	第39-40页
6 临床文本去识别模型测试	第40-46页
6.1 外部词典对分词工具以及去识别模型的影响	第40-42页
6.2 特征集以及后处理规则对去识别模型的影响	第42-43页
6.3 错误分析	第43-46页
6.3.1 类型错误	第44页
6.3.2 边界错误	第44页
6.3.3 假阴性错误	第44-45页
6.3.4 假阳性错误	第45-46页
7 讨论与展望	第46-50页
7.1 讨论	第46-48页
7.1.1 中文临床文本中PHI的分布	第46页
7.1.2 中文临床文本书写的规范性	第46-47页
7.1.3 去识别模型在中文临床文本中的有效性	第47-48页
7.1.4 临床文本的完整性和可用性	第48页
7.2 本研究的局限	第48页
7.3 未来研究的展望	第48-50页
致谢	第50-51页
参考文献	第51-58页
临床文本去识别国内外研究综述	第58-70页
1 资料与方法	第58-59页
2 国内外研究现状	第59-64页
3 结论	第64-65页
参考文献	第65-70页
附件1攻读学位期间发表论文目录	第70页