首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

面向文本挖掘的同频词统计规律及短文本分类方法

摘要第4-6页
Abstract第6-7页
1 绪论第10-12页
    1.1 课题研究背景与意义第10-11页
    1.2 论文研究内容第11页
    1.3 论文章节安排第11-12页
2 相关工作及研究进展第12-16页
    2.1 文本同频词统计规律研究第12-13页
        2.1.1 齐普夫定律第12页
        2.1.2 布茨定律和词频界分公式第12-13页
    2.2 短文本分类研究现状第13-14页
    2.3 维基百科研究现状及分析第14-16页
3 中文文本同频词统计规律研究第16-33页
    3.1 中文文本中I1 与D比值的变化规律第16-19页
    3.2 中文文本中In与I1 比值的变化规律第19-22页
    3.3 同频词数In的数学表达式推导第22-24页
    3.4 同频词数In表达式的结果验证第24-29页
    3.5 高频词的界分公式改进及验证第29-32页
    3.6 本章小结第32-33页
4 同频词统计规律在文本关键词提取中的应用第33-38页
    4.1 频次统计在关键词提取中的应用第33-35页
    4.2 实验结果与分析第35-37页
    4.3 本章小结第37-38页
5 基于维基百科的短文本分类方法第38-60页
    5.1 维基百科第38-43页
        5.1.1 解释页面第38页
        5.1.2 消歧和重定向页面第38-39页
        5.1.3 信息框第39页
        5.1.4 分类索引第39-40页
        5.1.5 讨论页面第40-41页
        5.1.6 维基百科语义网络第41-43页
    5.2 利用维基百科扩充分词库第43-44页
        5.2.1 正向最大匹配分词算法第43页
        5.2.2 利用维基词条扩充分词库第43-44页
    5.3 卡方统计特征选择第44-46页
        5.3.1 CHI统计算法第44-45页
        5.3.2 文本特征选择结果第45-46页
    5.4 基于维基百科的贝叶斯信念网络构建第46-56页
        5.4.1 朴素贝叶斯分类器第46-47页
        5.4.2 贝叶斯网络结构学习第47-48页
        5.4.3 K2 算法第48-50页
        5.4.4 基于维基百科构建贝叶斯网络第50-53页
        5.4.5 利用贝叶斯网进行特征扩展第53-56页
    5.5 实验与评价第56-59页
        5.5.1 实验测试环境第56页
        5.5.2 数据集第56页
        5.5.3 特征扩展实验结果对比第56-58页
        5.5.4 贝叶斯信念网分类结果评估第58-59页
    5.6 本章小结第59-60页
6 总结与展望第60-62页
    6.1 工作总结第60页
    6.2 工作展望第60-62页
参考文献第62-66页
致谢第66-67页
攻读学位期间取得的科研成果清单第67页

论文共67页,点击 下载论文
上一篇:中国共产党社会主义市场经济理论的历史演进与创新研究
下一篇:泉州台商投资区网格化服务管理研究--基于服务型政府视角