主要创新点 | 第5-12页 |
中文摘要 | 第12-14页 |
ABSTRACT | 第14-15页 |
1 绪论 | 第16-22页 |
1.1 研究背景 | 第16-19页 |
1.1.1 微博研究概述 | 第16-17页 |
1.1.2 微博文本的文字语言特征及面临的问题 | 第17-19页 |
1.2 文本规范化研究问题定义 | 第19-21页 |
1.3 论文结构 | 第21-22页 |
2 文本规范化研究现状 | 第22-31页 |
2.1 拼写修正研究现状 | 第22-23页 |
2.2 文本规范化研究现状 | 第23-28页 |
2.2.1 基于机器翻译模型 | 第24-25页 |
2.2.2 基于图模型 | 第25-26页 |
2.2.3 基于神经网络模型 | 第26-28页 |
2.2.4 基于序列标注模型 | 第28页 |
2.3 中文文本规范化研究现状 | 第28-30页 |
2.4 本章小结 | 第30-31页 |
3 基于词汇链的词义学习超图模型 | 第31-54页 |
3.1 引言 | 第31-32页 |
3.2 相关工作 | 第32-38页 |
3.2.1 词义归纳或学习相关工作 | 第32-36页 |
3.2.2 词汇链抽取方法概述 | 第36页 |
3.2.3 超图聚类方法 | 第36-38页 |
3.3 基于词汇链的超图模型 | 第38-42页 |
3.3.1 词汇链抽取 | 第39-40页 |
3.3.2 超图构建 | 第40-41页 |
3.3.3 超图聚类 | 第41-42页 |
3.4 实验及分析 | 第42-53页 |
3.4.1 评估度量 | 第42-44页 |
3.4.2 基线 | 第44页 |
3.4.3 基于SemEval评测任务的实验 | 第44-49页 |
3.4.4 基于中文微博语料的实验 | 第49-53页 |
3.5 本章小结 | 第53-54页 |
4 基于嵌入表示学习的非规范词对关系挖掘 | 第54-68页 |
4.1 引言 | 第54-55页 |
4.2 相关工作 | 第55-57页 |
4.2.1 非规词词-规范词对关系挖掘 | 第55-56页 |
4.2.2 词嵌入表示 | 第56-57页 |
4.3 基于非参的全局位置多词义嵌入表示模型 | 第57-61页 |
4.3.1 基于非参的多词义嵌入表示模型 | 第57-59页 |
4.3.2 基于非参的全局位置多词义嵌入表示模型 | 第59-61页 |
4.4 过滤与分类 | 第61-64页 |
4.4.1 基于规则的过滤 | 第61-62页 |
4.4.2 SVM分类 | 第62-64页 |
4.5 实验及分析 | 第64-67页 |
4.5.1 数据集 | 第64页 |
4.5.2 NP-GPMSSG模型评估 | 第64-66页 |
4.5.3 词典构建评估 | 第66-67页 |
4.6 本章小结 | 第67-68页 |
5 微博文本规范化及应用 | 第68-90页 |
5.1 引言 | 第68-69页 |
5.2 相关工作 | 第69-71页 |
5.2.1 分词与词性标注相关工作 | 第69页 |
5.2.2 感知机算法 | 第69-71页 |
5.3 基于迁移的分词模型 | 第71-72页 |
5.4 基于迁移的联合分词及文本规范模型 | 第72-78页 |
5.4.1 形式化 | 第73-74页 |
5.4.2 解码和训练 | 第74-76页 |
5.4.3 特征 | 第76-78页 |
5.5 基于迁移的联合分词、词性标注及文本规范化模型 | 第78-81页 |
5.5.1 基于迁移的联合分词、词性标注模型 | 第78页 |
5.5.2 基于迁移的联合分词、词性标注及文本规范化模型 | 第78-81页 |
5.6 实验及分析 | 第81-88页 |
5.6.1 微博语料标注 | 第81页 |
5.6.2 非规范词典 | 第81-82页 |
5.6.3 实验设置 | 第82页 |
5.6.4 联合分词和规范化实验结果 | 第82-86页 |
5.6.5 联合分词、词性标注和规范化实验结果 | 第86-88页 |
5.6.6 文本标准化结果 | 第88页 |
5.7 本章小结 | 第88-90页 |
6 总结与展望 | 第90-92页 |
6.1 全文总结 | 第90页 |
6.2 未来展望 | 第90-92页 |
参考文献 | 第92-103页 |
发表文章目录 | 第103-104页 |
致谢 | 第104页 |