首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

海量短信数据中异常行为的研究

摘要第5-7页
ABSTRACT第7-8页
第一章 绪论第12-19页
    1.1 课题研究的背景和意义第12-13页
    1.2 垃圾短信现状第13-16页
        1.2.1 垃圾短信分类第14-15页
        1.2.2 垃圾短信的危害第15-16页
        1.2.3 垃圾短信拦截技术第16页
    1.3 文本分类技术的发展现状第16-18页
        1.3.1 文本分类框架第16-17页
        1.3.2 文本表示第17页
        1.3.3 建模与分类第17-18页
    1.4 本文工作内容和结构安排第18-19页
第二章 常见分类方法和语言模型研究第19-33页
    2.1 常见文本分类方法第19-21页
        2.1.1 朴素贝叶斯算法第19-20页
        2.1.2 支持向量机算法第20-21页
    2.2 Logistic回归常用函数第21-27页
        2.2.1 Logistic函数第21-22页
        2.2.2 逻辑回归和梯度下降第22-24页
        2.2.3 Softmax函数第24-27页
    2.3 语言模型研究第27-31页
        2.3.1 N-gram模型第28-30页
        2.3.2 CBOW模型第30页
        2.3.3 Skip-gram模型第30页
        2.3.4 Huffman编码第30-31页
    2.4 文本聚类第31-32页
        2.4.1 文本聚类过程第31页
        2.4.2 文本聚类准则第31-32页
    2.5 本章小结第32-33页
第三章 基于层次softmax的文本分类器第33-52页
    3.1 背景介绍第33页
    3.2 HSTC基本架构第33-35页
    3.3 文本预处理第35-40页
        3.3.1 基于词典的中文分词第36页
        3.3.2 Dropout层第36-38页
        3.3.3 Skip-gram实现第38-40页
    3.4 HSTC模型训练、预测系统第40-45页
        3.4.1 Huffman树的构造第41-42页
        3.4.2 层次softmax第42-43页
        3.4.3 模型训练函数第43-45页
        3.4.4 预测输出第45页
    3.5 实验结果和算法仿真第45-51页
        3.5.1 仿真环境和数据集第46-47页
        3.5.2 HSTC自身指标仿真第47-49页
        3.5.3 HSTC与其他分类器对比仿真第49-51页
    3.6 本章小结第51-52页
第四章 基于规则和统计的文本特征提取系统第52-65页
    4.1 背景介绍第52页
    4.2 文本聚类算法研究第52-54页
        4.2.1 Tf-idf加权技术第52-53页
        4.2.2 K-means文本聚类技术第53-54页
    4.3 基于规则的文本特征提取第54-58页
        4.3.1 N-邻近词相似文本聚类第54-56页
        4.3.2 N-最短路分词第56-57页
        4.3.3 基于规则的称呼提取第57-58页
    4.4 高可用的海量短信处理系统第58-60页
        4.4.1 系统整体架构第58-59页
        4.4.2 系统可靠性论述第59-60页
    4.5 实验结果和算法仿真第60-63页
        4.5.1 仿真环境和数据集第60-61页
        4.5.2 N-邻近词相似文本聚类n值选取第61页
        4.5.3 基于词典的分词方法和N-最短路分词性能对比第61-63页
        4.5.4 K-means文本聚类和n-邻近词相似文本聚类法性能对比第63页
    4.6 本章小结第63-65页
第五章 总结与展望第65-67页
    5.1 总结第65页
    5.2 展望第65-67页
参考文献第67-72页
致谢第72页

论文共72页,点击 下载论文
上一篇:基于目录服务的自定义领域关联信息发布及订阅系统的设计与实现
下一篇:医疗挂号系统服务端的设计与实现