摘要 | 第4-5页 |
ABSTRACT | 第5-6页 |
主要符号表 | 第15-16页 |
1 绪论 | 第16-34页 |
1.1 研究背景和意义 | 第16-19页 |
1.1.1 研究背景 | 第16-18页 |
1.1.2 研究意义 | 第18-19页 |
1.2 中文分词研究现状 | 第19-29页 |
1.2.1 中文分词评测介绍 | 第19-20页 |
1.2.2 面向传统语料的中文分词研究现状 | 第20-24页 |
1.2.3 面向社交媒体语料的词法分析研究 | 第24-27页 |
1.2.4 训练语料扩充方法 | 第27-29页 |
1.3 面临的问题与挑战 | 第29-31页 |
1.4 论文的研究内容 | 第31-34页 |
2 面向微博语料的新词识别 | 第34-61页 |
2.1 新词定义及其分析 | 第34-36页 |
2.1.1 新词定义 | 第34-35页 |
2.1.2 新词分析 | 第35-36页 |
2.2 新词识别的统计量 | 第36-42页 |
2.2.1 传统统计量 | 第38-39页 |
2.2.2 词向量 | 第39-40页 |
2.2.3 词串独立性的提出 | 第40-41页 |
2.2.4 Modified Accessor Variety方法的提出 | 第41-42页 |
2.3 新词识别算法 | 第42-49页 |
2.3.1 普通新词识别算法 | 第43-46页 |
2.3.2 低频新词识别算法 | 第46-49页 |
2.4 实验及实验结果 | 第49-60页 |
2.4.1 实验语料 | 第49-50页 |
2.4.2 实验评价方法 | 第50-51页 |
2.4.3 普通新词识别实验设计及结果分析 | 第51-55页 |
2.4.4 低频新词识别实验设计及结果分析 | 第55-60页 |
2.5 本章小结 | 第60-61页 |
3 基于λ-主动学习的中文微博分词 | 第61-87页 |
3.1 候选样例池的构建 | 第61-72页 |
3.1.1 基于规则修正的跨领域微博分词算法 | 第61-65页 |
3.1.2 语料选取 | 第65-67页 |
3.1.3 语料标注 | 第67-69页 |
3.1.4 语料分析 | 第69-72页 |
3.2 基于半监督方法的初始分词器 | 第72-73页 |
3.2.1 点互信息 | 第72页 |
3.2.2 停用字相似度 | 第72-73页 |
3.3 λ-主动学习方法 | 第73-79页 |
3.3.1 基于主动学习的分词算法 | 第74-76页 |
3.3.2 字边界的差异性 | 第76-78页 |
3.3.3 字标注结果的不确定性 | 第78页 |
3.3.4 样例整体标注价值的评价方法 | 第78-79页 |
3.4 实验设计及结果分析 | 第79-85页 |
3.4.1 实验语料 | 第79-80页 |
3.4.2 评价方法 | 第80页 |
3.4.3 基于规则修正的跨领域微博分词结果 | 第80-81页 |
3.4.4 初始分词器的分词结果 | 第81-82页 |
3.4.5 λ-主动学习扩充的语料对LSTM分词器的影响 | 第82-85页 |
3.5 本章小结 | 第85-87页 |
4 基于深度神经网络的中文微博分词 | 第87-112页 |
4.1 神经网络 | 第87-88页 |
4.2 基于LSTM神经网络的中文分词方法 | 第88-91页 |
4.3 基于BLSTM神经网络的中文分词方法 | 第91-93页 |
4.4 基于BLSTM和CRFs的协同训练微博分词框架 | 第93-102页 |
4.4.1 基于协同训练框架的中文分词算法 | 第93-95页 |
4.4.2 异簇的介绍 | 第95-96页 |
4.4.3 Dempster-Shafer (D-S)证据理论 | 第96-97页 |
4.4.4 标签自动修正算法 | 第97-102页 |
4.5 实验设计及结果分析 | 第102-111页 |
4.5.1 实验数据 | 第102页 |
4.5.2 评价方法 | 第102-103页 |
4.5.3 λ-主动学习方法对LSTM分词器的影响 | 第103-105页 |
4.5.4 协同训练方法的分词结果 | 第105-111页 |
4.6 本章小结 | 第111-112页 |
5 结论与展望 | 第112-115页 |
5.1 结论 | 第112-113页 |
5.2 创新点 | 第113-114页 |
5.3 展望 | 第114-115页 |
参考文献 | 第115-127页 |
攻读博士学位期间科研项目及科研成果 | 第127-129页 |
致谢 | 第129-130页 |
作者简介 | 第130页 |