首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于改进的TFIDF关键词自动提取算法研究

摘要第4-5页
Abstract第5页
第1章 绪论第9-13页
    1.1 研究背景与意义第9-10页
    1.2 国内外研究现状第10-11页
    1.3 本文研究内容以及创新第11-12页
    1.4 本文结构第12-13页
第2章 相关技术与资源建设第13-18页
    2.1 文本预处理第13-15页
        2.1.1 中文分词技术第13-14页
        2.1.2 停用词过滤第14-15页
    2.2 汉语词法分析系统ICTCLAS第15页
    2.3 语料资源建设第15-18页
第3章 关键词抽取第18-23页
    3.1 关键词定义第18页
    3.2 关键词提取第18-19页
    3.3 关键词自动提取的一般过程第19页
    3.4 常用的关键词自动提取方法第19-20页
        3.4.1 基于统计的方法第19页
        3.4.2 基于机器学习的算法第19-20页
        3.4.3 基于语言分析的方法第20页
        3.4.4 基于结构的方法第20页
        3.4.5 基于复杂网络的方法第20页
    3.5 关键词自动提取算法性能的评价标准第20-23页
        3.5.1 信息抽取的评测会议第20-21页
        3.5.2 信息抽取系统的评价方法第21-22页
        3.5.3 关键词提取算法的评价方法第22-23页
第4章 传统TFIDF及其相关改进算法第23-29页
    4.1 传统TFIDF算法第23-24页
        4.1.1 词频TF第23页
        4.1.2 逆向文件频率IDF第23页
        4.1.3 TFIDF第23-24页
        4.1.4 TFIDF的优点与不足第24页
    4.2 已知的TFIDF改进算法第24-29页
        4.2.1 CTD算法第25页
        4.2.2 TFIDF’算法第25-26页
        4.2.3 TFIDF-IG算法第26-27页
        4.2.5 TFIDF-DI算法第27-29页
第5章 基于IGD与M_TF的TFIDF改进算法第29-36页
    5.1 调整因子IGD第29-32页
        5.1.1 信息增益IG(Information Gain)第30-31页
        5.1.2 离散度D(Dispersion)第31-32页
    5.2 融合特征M_TF第32-36页
        5.2.1 词频因子TF(Term Frequency)第32-33页
        5.2.2 词性因子Pos(Part of Speech)第33-34页
        5.2.3 词长因子TL(Term Length)第34页
        5.2.4 词位置因子WL(Word Location)第34-35页
        5.2.5 词跨度因子WS(Word Span)第35-36页
第6章 基于M_TF-IDF-IGD算法提取关键词第36-39页
    6.1 文本预处理阶段第36页
        6.1.1 分词处理第36页
        6.1.2 停用词过滤第36页
    6.2 关键词筛选阶段第36-39页
        6.2.1 计算权重第36-37页
        6.2.2 权重排序第37-39页
第7章 实验与分析第39-45页
    7.1 验证IGD对类别信息的量化能力第39-40页
    7.2 验证M_TF对文本内部信息的表现力第40-41页
    7.3 测试基于M_TF-IDF-IGD的关键词提取算法的性能第41-43页
    7.4 实验总结第43-45页
第8章 总结与展望第45-46页
参考文献第46-49页
致谢第49-50页
附录1停用词词表第50-55页

论文共55页,点击 下载论文
上一篇:CMP抛光硬质合金刀片的切削性能试验研究
下一篇:人脸跟踪中的在线学习方法研究