海量短信数据中异常行为的研究

摘要	第5-7页
ABSTRACT	第7-8页
第一章绪论	第12-19页
1.1 课题研究的背景和意义	第12-13页
1.2 垃圾短信现状	第13-16页
1.2.1 垃圾短信分类	第14-15页
1.2.2 垃圾短信的危害	第15-16页
1.2.3 垃圾短信拦截技术	第16页
1.3 文本分类技术的发展现状	第16-18页
1.3.1 文本分类框架	第16-17页
1.3.2 文本表示	第17页
1.3.3 建模与分类	第17-18页
1.4 本文工作内容和结构安排	第18-19页
第二章常见分类方法和语言模型研究	第19-33页
2.1 常见文本分类方法	第19-21页
2.1.1 朴素贝叶斯算法	第19-20页
2.1.2 支持向量机算法	第20-21页
2.2 Logistic回归常用函数	第21-27页
2.2.1 Logistic函数	第21-22页
2.2.2 逻辑回归和梯度下降	第22-24页
2.2.3 Softmax函数	第24-27页
2.3 语言模型研究	第27-31页
2.3.1 N-gram模型	第28-30页
2.3.2 CBOW模型	第30页
2.3.3 Skip-gram模型	第30页
2.3.4 Huffman编码	第30-31页
2.4 文本聚类	第31-32页
2.4.1 文本聚类过程	第31页
2.4.2 文本聚类准则	第31-32页
2.5 本章小结	第32-33页
第三章基于层次softmax的文本分类器	第33-52页
3.1 背景介绍	第33页
3.2 HSTC基本架构	第33-35页
3.3 文本预处理	第35-40页
3.3.1 基于词典的中文分词	第36页
3.3.2 Dropout层	第36-38页
3.3.3 Skip-gram实现	第38-40页
3.4 HSTC模型训练、预测系统	第40-45页
3.4.1 Huffman树的构造	第41-42页
3.4.2 层次softmax	第42-43页
3.4.3 模型训练函数	第43-45页
3.4.4 预测输出	第45页
3.5 实验结果和算法仿真	第45-51页
3.5.1 仿真环境和数据集	第46-47页
3.5.2 HSTC自身指标仿真	第47-49页
3.5.3 HSTC与其他分类器对比仿真	第49-51页
3.6 本章小结	第51-52页
第四章基于规则和统计的文本特征提取系统	第52-65页
4.1 背景介绍	第52页
4.2 文本聚类算法研究	第52-54页
4.2.1 Tf-idf加权技术	第52-53页
4.2.2 K-means文本聚类技术	第53-54页
4.3 基于规则的文本特征提取	第54-58页
4.3.1 N-邻近词相似文本聚类	第54-56页
4.3.2 N-最短路分词	第56-57页
4.3.3 基于规则的称呼提取	第57-58页
4.4 高可用的海量短信处理系统	第58-60页
4.4.1 系统整体架构	第58-59页
4.4.2 系统可靠性论述	第59-60页
4.5 实验结果和算法仿真	第60-63页
4.5.1 仿真环境和数据集	第60-61页
4.5.2 N-邻近词相似文本聚类n值选取	第61页
4.5.3 基于词典的分词方法和N-最短路分词性能对比	第61-63页
4.5.4 K-means文本聚类和n-邻近词相似文本聚类法性能对比	第63页
4.6 本章小结	第63-65页
第五章总结与展望	第65-67页
5.1 总结	第65页
5.2 展望	第65-67页
参考文献	第67-72页
致谢	第72页