首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

微博新词发现研究

摘要第4-5页
ABSTRACT第5-6页
第1章 绪论第9-15页
    1.1 课题研究的背景和意义第9-11页
        1.1.1 课题研究的背景第9-10页
        1.1.2 课题研究的意义第10-11页
    1.2 国内外的研究现状第11-13页
    1.3 本文的主要研究内容第13-15页
第2章 规则与统计相结合的新词发现研究第15-33页
    2.1 引言第15页
    2.2 候选新词的抽取和过滤第15-19页
        2.2.1 语料的预处理第15-16页
        2.2.2 候选新词抽取第16-17页
        2.2.3 过滤规则第17-19页
    2.3 经典统计量介绍第19-20页
        2.3.1 外部统计量第19-20页
        2.3.2 内部统计量第20页
    2.4 基于邻接熵的改进统计量第20-23页
        2.4.1 加权邻接熵第21-22页
        2.4.2 相对邻接熵第22-23页
        2.4.3 加权的相对邻接熵第23页
    2.5 实验结果及分析第23-31页
        2.5.1 语料库和评价指标的介绍第23页
        2.5.2 结果及分析第23-31页
    2.6 本章小结第31-33页
第3章 与微博分词相结合的新词发现研究第33-50页
    3.1 引言第33-34页
    3.2 条件随机场介绍第34-35页
    3.3 基于条件随机场的微博分词第35-39页
        3.3.1 标注系统和基本特征第35-38页
        3.3.2 基于 KL 距离的领域外标注语料的选择第38-39页
        3.3.3 基于规则的语料预处理第39页
    3.4 基于分词的新词发现技术第39-42页
        3.4.1 词典特征第39-40页
        3.4.2 统计量特征第40-41页
        3.4.3 基于 CRF 置信度的新词发现第41-42页
    3.5 实验结果及分析第42-48页
        3.5.1 语料库和评价指标的介绍第42-43页
        3.5.2 结果及分析第43-48页
    3.6 本章小结第48-50页
第4章 微博中新词的生命周期分析第50-60页
    4.1 引言第50页
    4.2 新词的时间分布分析第50-55页
        4.2.1 生命周期曲线第50-53页
        4.2.2 新词分布的均匀度第53-55页
    4.3 新词的空间分布分析第55-58页
        4.3.1 基于频繁项集挖掘的共现词语抽取第55-57页
        4.3.2 新词在话题发现中的作用第57-58页
    4.4 本章小结第58-60页
结论第60-62页
参考文献第62-66页
攻读硕士学位期间发表的学术论文第66-68页
致谢第68页

论文共68页,点击 下载论文
上一篇:基于压缩感知的60Ghz系统信号处理研究
下一篇:TD-SCDMA物理层上行发送过程的研究与实现