微博新词发现研究

摘要	第4-5页
ABSTRACT	第5-6页
第1章绪论	第9-15页
1.1 课题研究的背景和意义	第9-11页
1.1.1 课题研究的背景	第9-10页
1.1.2 课题研究的意义	第10-11页
1.2 国内外的研究现状	第11-13页
1.3 本文的主要研究内容	第13-15页
第2章规则与统计相结合的新词发现研究	第15-33页
2.1 引言	第15页
2.2 候选新词的抽取和过滤	第15-19页
2.2.1 语料的预处理	第15-16页
2.2.2 候选新词抽取	第16-17页
2.2.3 过滤规则	第17-19页
2.3 经典统计量介绍	第19-20页
2.3.1 外部统计量	第19-20页
2.3.2 内部统计量	第20页
2.4 基于邻接熵的改进统计量	第20-23页
2.4.1 加权邻接熵	第21-22页
2.4.2 相对邻接熵	第22-23页
2.4.3 加权的相对邻接熵	第23页
2.5 实验结果及分析	第23-31页
2.5.1 语料库和评价指标的介绍	第23页
2.5.2 结果及分析	第23-31页
2.6 本章小结	第31-33页
第3章与微博分词相结合的新词发现研究	第33-50页
3.1 引言	第33-34页
3.2 条件随机场介绍	第34-35页
3.3 基于条件随机场的微博分词	第35-39页
3.3.1 标注系统和基本特征	第35-38页
3.3.2 基于 KL 距离的领域外标注语料的选择	第38-39页
3.3.3 基于规则的语料预处理	第39页
3.4 基于分词的新词发现技术	第39-42页
3.4.1 词典特征	第39-40页
3.4.2 统计量特征	第40-41页
3.4.3 基于 CRF 置信度的新词发现	第41-42页
3.5 实验结果及分析	第42-48页
3.5.1 语料库和评价指标的介绍	第42-43页
3.5.2 结果及分析	第43-48页
3.6 本章小结	第48-50页
第4章微博中新词的生命周期分析	第50-60页
4.1 引言	第50页
4.2 新词的时间分布分析	第50-55页
4.2.1 生命周期曲线	第50-53页
4.2.2 新词分布的均匀度	第53-55页
4.3 新词的空间分布分析	第55-58页
4.3.1 基于频繁项集挖掘的共现词语抽取	第55-57页
4.3.2 新词在话题发现中的作用	第57-58页
4.4 本章小结	第58-60页
结论	第60-62页
参考文献	第62-66页
攻读硕士学位期间发表的学术论文	第66-68页
致谢	第68页