首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

汉越双语新闻话题分析方法研究

摘要第5-6页
Abstract第6-7页
第一章 绪论第11-21页
    1.1. 研究背景及意义第11-12页
    1.2. 国内外研究现状第12-18页
        1.2.1. 越南语相关研究第12页
        1.2.2. 语义相关度研究现状第12-17页
        1.2.3. 文本相似度的研究现状第17页
        1.2.4. 双语新闻话题的研究现状第17-18页
    1.3. 研究内容与组织结构第18-21页
        1.3.1. 研究内容第18-19页
        1.3.2.论文组织第19-21页
第二章 相关理论基础第21-31页
    2.1. 语义相关度第21-25页
        2.1.1. 语义相关度概念第21-22页
        2.1.2. 语义相关度测试集介绍第22-24页
        2.1.3. 语义相关度评测方法介绍第24-25页
    2.2. 文本相似度理论基础第25-27页
        2.2.1. 文本结构化表示第25-26页
        2.2.2. 向量空间模型第26-27页
    2.3. 话题相关理论第27-30页
        2.3.1. 话题发现的任务第27-28页
        2.3.2. 话题发现体系第28-29页
        2.3.3. 新闻特征分析及结构化第29-30页
    2.4. 本章小结第30-31页
第三章 基于维基百科的汉越词语语义相关度计算第31-43页
    3.1. 引言第31-32页
    3.2. 维基百科数据获取与预处理第32-35页
        3.2.1. 维基百科介绍第32-34页
        3.2.2. 维基百科数据获取第34-35页
        3.2.3. 维基百科数据预处理第35页
    3.3. 汉越词语语义相关度计算第35-38页
        3.3.1. 基于维基百科的ESA算法第35-36页
        3.3.2. 概念的ESA向量表示第36-38页
        3.3.3. 跨语言词语语义相关度第38页
    3.4. 实验与分析第38-41页
        3.4.1. 测试集构建第38-39页
        3.4.2. 实验数据第39页
        3.4.3. 评价方法第39-40页
        3.4.4. 实验结果与分析第40-41页
    3.5. 本章小结第41-43页
第四章 基于双语主题分布词的汉越文本相似度计算第43-53页
    4.1. 引言第43页
    4.2. 主题模型第43-45页
    4.3. 跨语言文本相似度计算第45-49页
        4.3.1. 基本流程第45-46页
        4.3.2. 跨语言主题识别第46页
        4.3.3. KL散度第46-47页
        4.3.4. 余弦相似度第47-48页
        4.3.5. 文本相似度确定第48-49页
    4.4. 实验与分析第49-52页
        4.4.1. 实验数据第49-50页
        4.4.2. 数据处理第50页
        4.4.3. 评价标准第50-51页
        4.4.4. 实验结果与分析第51-52页
    4.5. 本章小结第52-53页
第五章 融合要素及主题的汉越双语新闻话题分析第53-63页
    5.1. 引言第53页
    5.2. 汉越双语新闻文本处理第53-56页
        5.2.1. 数据准备第53-54页
        5.2.2. 新闻文本特征提取第54-55页
        5.2.3. 文本相似度矩阵第55-56页
    5.3. 自适应K均值聚类第56-59页
        5.3.1. K均值第57页
        5.3.2. 聚类数的确定第57-58页
        5.3.3. 自适应K均值聚类算法描述第58-59页
    5.4. 实验结果与分析第59-61页
        5.4.1. 实验数据第59页
        5.4.2. 评价方法第59-60页
        5.4.3. 实验结果与分析第60-61页
    5.5. 本章小结第61-63页
第六章 结束语第63-65页
    6.1. 论文总结第63页
    6.2. 下一步工作第63-65页
致谢第65-67页
参考文献第67-75页
附录A 攻读硕士期间发表论文与申请软件著作权第75-77页
附录B 攻读硕士期间参与项目第77页

论文共77页,点击 下载论文
上一篇:汉越双语新闻话题分析方法研究
下一篇:格结构数据分布式存储研究