新词识别和热词排名方法研究

摘要	第3-4页
ABSTRACT	第4页
1 绪论	第8-12页
1.1 课题研究背景	第8页
1.2 课题研究意义	第8-9页
1.3 国内外研究现状	第9-10页
1.4 本文难点	第10-11页
1.5 本文研究内容	第11页
1.6 本文的组织结构	第11-12页
2 新词检测的理论基础	第12-22页
2.1 自然语言处理概述	第12-15页
2.1.1 自然语言处理的研究与发展	第12页
2.1.2 自然语言处理的关键技术	第12-13页
2.1.3 自然语言处理研究的内容与难点	第13-15页
2.2 新词的定义与模式分析	第15-18页
2.2.1 新词的定义	第15-16页
2.2.2 新词的特征	第16-17页
2.2.3 新词的模式	第17-18页
2.3 新词检测方法概述	第18-21页
2.3.1 以规则为主的新词检测	第18-19页
2.3.2 以统计为主的新词检测	第19-20页
2.3.3 统计方法与规则方法融合	第20-21页
2.4 本章小结	第21-22页
3 新词检测方法研究	第22-30页
3.1 目前新词检测方法的不足	第22页
3.2 本文方法的理论介绍	第22-25页
3.2.1 互信息	第23-24页
3.2.2 左右信息熵	第24-25页
3.3 候选新词获取方法	第25-26页
3.4 词语边界确定	第26-27页
3.5 垃圾串的过滤方法	第27页
3.6 本文新词检测方法步骤	第27-29页
3.7 本章小结	第29-30页
4 新词检测实验与性能评估	第30-43页
4.1 实验设计	第30-32页
4.1.1 实验环境	第30页
4.1.2 数据集选择	第30页
4.1.3 实验评价指标	第30-31页
4.1.4 实验目标	第31页
4.1.5 实验步骤	第31-32页
4.2 文本预处理	第32页
4.3 重复串统计	第32-34页
4.4 阈值的选择	第34-36页
4.5 垃圾词典的训练与提取	第36-37页
4.6 新词识别实验结果及分析	第37-41页
4.6.1 平均互信息性能	第37-38页
4.6.2 左右信息熵性能	第38页
4.6.3 平均互信息与信息熵结合性能图	第38-39页
4.6.4 Score 评价函数性能图	第39-40页
4.6.5 F 值对比图	第40页
4.6.6 垃圾过滤前后 F 值对比	第40-41页
4.7 与前人工作比较	第41-42页
4.8 本章小结	第42-43页
5 热词排名算法及实验分析	第43-58页
5.1 引言	第43-44页
5.1.1 热词定义	第43页
5.1.2 热词研究意义	第43页
5.1.3 热词的特点	第43-44页
5.1.4 目前热词排名方法分析	第44页
5.2 本文热词排名方法	第44-46页
5.2.1 贝叶斯平均法	第45页
5.2.2 牛顿冷却定律	第45-46页
5.3 实验设计	第46-57页
5.3.1 数据集选取	第46-47页
5.3.2 热词评价标准	第47页
5.3.3 实验目标	第47-48页
5.3.4 热词排名方法步骤	第48页
5.3.5 贝叶斯平均实验	第48-52页
5.3.6 牛顿冷却定律实验	第52-54页
5.3.7 改进热词评价值	第54-55页
5.3.8 实验结果分析	第55-57页
5.4 本章小结	第57-58页
6 总结与展望	第58-60页
6.1 本文工作总结	第58页
6.2 未来工作展望	第58-60页
致谢	第60-61页
参考文献	第61-64页
附录	第64页
A. 作者在攻读硕士学位期间发表的论文目录	第64页