首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于后缀树聚类算法的越南语新闻话题识别方法研究

摘要第5-6页
Abstract第6-7页
第1章 绪论第11-17页
    1.1 研究背景及意义第11-12页
    1.2 国内外研究现状第12-14页
    1.3 论文的主要研究内容第14-15页
    1.4 论文的结构安排第15-17页
第2章 话题识别相关技术第17-25页
    2.1 引言第17-18页
    2.2 话题识别模型第18-20页
        2.2.1 向量空间模型VSM第18-19页
        2.2.2 布尔模型BM第19页
        2.2.3 语言模型SLM第19页
        2.2.4 概率模型PM第19-20页
    2.3 经典的聚类算法第20-23页
        2.3.1 Single-Pass算法第20-21页
        2.3.2 K-Means算法第21页
        2.3.3 后缀树聚类算法第21-23页
    2.4 本章小结第23-25页
第3章 越南语新闻话题特征选择第25-41页
    3.1 引言第25页
    3.2 越南语词法特点第25-26页
    3.3 获取越南语新闻语料第26-30页
        3.3.1 语料来源第26页
        3.3.2 网页信息爬取第26-28页
        3.3.3 越南语语料存储第28-30页
    3.4 文本预处理第30-33页
        3.4.1 文本分析及去停用词第30-31页
        3.4.2 越南语分词与词性标注第31-32页
        3.4.3 命名实体识别第32-33页
    3.5 新闻报道的表示第33-35页
        3.5.1 向量空间模型第33-34页
        3.5.2 后缀树文本模型第34-35页
        3.5.3 文本相似度计算第35页
        3.5.4 新闻类簇相似度计算第35页
    3.6 新闻特征选择第35-39页
        3.6.1 特征选择第36-37页
        3.6.2 新闻特征权重第37-39页
    3.7 本章小结第39-41页
第4章 后缀树聚类算法的越南语新闻话题识别第41-51页
    4.1 引言第41页
    4.2 越南语新闻话题识别流程第41-42页
    4.3 改进的越南语新闻后缀树聚类过程第42-47页
        4.3.1 构造广义后缀树GST第43-44页
        4.3.2 短语基类选择第44-45页
        4.3.3 合并基类第45-46页
        4.3.4 聚类标签标识第46-47页
    4.4 两种后缀树聚类算法性能比较第47-49页
    4.5 本章小结第49-51页
第5章 越南语新闻话题识别系统及实验分析第51-55页
    5.1 引言第51页
    5.2 实验环境第51页
    5.3 原型系统界面第51-52页
    5.4 实验结果与分析第52-54页
        5.4.1 实验语料第52-53页
        5.4.2 实验结果与分析第53-54页
    5.5 本章小节第54-55页
第6章 总结与展望第55-57页
    6.1 论文总结第55页
    6.2 下一步工作第55-57页
致谢第57-59页
参考文献第59-65页
附录A 攻读硕士学位期间发表的论文及软件著作目录第65-67页
附录B 攻读硕士学位期间参与的科研项目第67-69页
附录C 攻读硕士学位期间获奖情况第69页

论文共69页,点击 下载论文
上一篇:汉越双语新闻话题发现方法研究
下一篇:丽江师范高等专科学校图书馆管理系统设计与实现