摘要 | 第4-5页 |
ABSTRACT | 第5-6页 |
第1章 绪论 | 第9-15页 |
1.1 课题研究的背景和意义 | 第9-11页 |
1.1.1 课题研究的背景 | 第9-10页 |
1.1.2 课题研究的意义 | 第10-11页 |
1.2 国内外的研究现状 | 第11-13页 |
1.3 本文的主要研究内容 | 第13-15页 |
第2章 规则与统计相结合的新词发现研究 | 第15-33页 |
2.1 引言 | 第15页 |
2.2 候选新词的抽取和过滤 | 第15-19页 |
2.2.1 语料的预处理 | 第15-16页 |
2.2.2 候选新词抽取 | 第16-17页 |
2.2.3 过滤规则 | 第17-19页 |
2.3 经典统计量介绍 | 第19-20页 |
2.3.1 外部统计量 | 第19-20页 |
2.3.2 内部统计量 | 第20页 |
2.4 基于邻接熵的改进统计量 | 第20-23页 |
2.4.1 加权邻接熵 | 第21-22页 |
2.4.2 相对邻接熵 | 第22-23页 |
2.4.3 加权的相对邻接熵 | 第23页 |
2.5 实验结果及分析 | 第23-31页 |
2.5.1 语料库和评价指标的介绍 | 第23页 |
2.5.2 结果及分析 | 第23-31页 |
2.6 本章小结 | 第31-33页 |
第3章 与微博分词相结合的新词发现研究 | 第33-50页 |
3.1 引言 | 第33-34页 |
3.2 条件随机场介绍 | 第34-35页 |
3.3 基于条件随机场的微博分词 | 第35-39页 |
3.3.1 标注系统和基本特征 | 第35-38页 |
3.3.2 基于 KL 距离的领域外标注语料的选择 | 第38-39页 |
3.3.3 基于规则的语料预处理 | 第39页 |
3.4 基于分词的新词发现技术 | 第39-42页 |
3.4.1 词典特征 | 第39-40页 |
3.4.2 统计量特征 | 第40-41页 |
3.4.3 基于 CRF 置信度的新词发现 | 第41-42页 |
3.5 实验结果及分析 | 第42-48页 |
3.5.1 语料库和评价指标的介绍 | 第42-43页 |
3.5.2 结果及分析 | 第43-48页 |
3.6 本章小结 | 第48-50页 |
第4章 微博中新词的生命周期分析 | 第50-60页 |
4.1 引言 | 第50页 |
4.2 新词的时间分布分析 | 第50-55页 |
4.2.1 生命周期曲线 | 第50-53页 |
4.2.2 新词分布的均匀度 | 第53-55页 |
4.3 新词的空间分布分析 | 第55-58页 |
4.3.1 基于频繁项集挖掘的共现词语抽取 | 第55-57页 |
4.3.2 新词在话题发现中的作用 | 第57-58页 |
4.4 本章小结 | 第58-60页 |
结论 | 第60-62页 |
参考文献 | 第62-66页 |
攻读硕士学位期间发表的学术论文 | 第66-68页 |
致谢 | 第68页 |