短文本中特殊信息的识别及其在数据挖掘引擎中的应用
摘要 | 第4-5页 |
Abstract | 第5页 |
第一章 绪论 | 第8-13页 |
1.1 课题研究背景与意义 | 第8-9页 |
1.2 国内外研究状况 | 第9-11页 |
1.3 本文主要研究内容 | 第11页 |
1.4 本文组织结构 | 第11-13页 |
第二章 相关支撑技术 | 第13-21页 |
2.1 语义网络 | 第13-17页 |
2.1.1 语义网络 | 第13-14页 |
2.1.2 实体与关系 | 第14-17页 |
2.2 本研究所基于的数据平台 | 第17-20页 |
2.2.1 Hadoop | 第17-18页 |
2.2.2 MapReduce | 第18-20页 |
2.3 本章小结 | 第20-21页 |
第三章 基于角色标注的中国人名自动识别 | 第21-37页 |
3.1 中文分词和命名实体的识别 | 第21-25页 |
3.1.1 中文分词技术 | 第21-22页 |
3.1.2 最大匹配法 | 第22-23页 |
3.1.3 N-最短路径分词算法 | 第23-25页 |
3.2 基于HMM的标注模型 | 第25-31页 |
3.2.1 隐马尔可夫模型 | 第25-28页 |
3.2.2 Viterbi算法实现角色标注识别 | 第28-31页 |
3.3 中文人名识别 | 第31-36页 |
3.3.1 角色自动识别算法实现 | 第31-32页 |
3.3.2 参数估计与平滑处理 | 第32-35页 |
3.3.3 性能分析与对比 | 第35-36页 |
3.4 本章小结 | 第36-37页 |
第四章 地址名和账号类实体抽取识别 | 第37-55页 |
4.1 基于FSM和地名词典的地名识别 | 第37-41页 |
4.1.1 中文地址名的特点 | 第37页 |
4.1.2 有限状态机 | 第37-40页 |
4.1.3 地名词典和后缀关键字触发 | 第40-41页 |
4.2 规则库的建立 | 第41-47页 |
4.2.1 产生式规则 | 第41-42页 |
4.2.2 规则引擎 | 第42-45页 |
4.2.3 规则的获取和规则库的组织管理 | 第45-47页 |
4.3 基于规则库的账号类实体抽取 | 第47-54页 |
4.3.1 规则的添加 | 第47-50页 |
4.3.2 应用举例 | 第50-54页 |
4.4 本章小结 | 第54-55页 |
第五章 敏感信息的查询和分析系统 | 第55-63页 |
5.1 系统功能 | 第55-56页 |
5.2 系统总体架构 | 第56页 |
5.3 系统模块分析 | 第56-60页 |
5.4 系统用户界面 | 第60-62页 |
5.5 本章小结 | 第62-63页 |
第六章 总结与展望 | 第63-65页 |
6.1 本文总结 | 第63页 |
6.2 工作展望 | 第63-65页 |
参考文献 | 第65-68页 |
附录1 图表清单 | 第68-69页 |
致谢 | 第69页 |