首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于语义的Web信息自动聚合系统的关键技术研究

摘要第4-5页
ABSTRACT第5-6页
第一章 绪论第9-14页
    1.1 背景介绍第9-10页
    1.2 研究意义第10页
    1.3 国内外研究现状第10-12页
    1.4 论文研究工作第12页
    1.5 论文组织结构第12-14页
第二章 相关理论与技术第14-21页
    2.1 RSS简介第14-16页
        2.1.1 RSS概念及规范第14-15页
        2.1.2 RSS信息聚合第15-16页
    2.2 网络爬虫第16-17页
    2.3 Simhash第17-18页
    2.4 文档预处理第18-19页
        2.4.1 中文分词第18-19页
        2.4.2 去停用词第19页
    2.5 文本建模第19-21页
        2.5.1 布尔模型第19-20页
        2.5.2 空间向量模型第20页
        2.5.3 概率主题模型第20-21页
第三章 Web信息自动聚合系统设计第21-29页
    3.1 系统整体框架第21页
    3.2 系统框架详细设计第21-29页
        3.2.1 信息获取第21-26页
        3.2.2 信息预处理第26-28页
        3.2.3 按主题聚合第28-29页
第四章 基于标点符号及标签相似度的正文抽取方法设计第29-39页
    4.1 概述第29-30页
    4.2 常用网页正文抽取方法分析第30-31页
    4.3 基于标点分布的网页正文抽取算法第31-34页
        4.3.1 算法概述第31页
        4.3.2 网页预处理第31页
        4.3.3 构造标签树第31-32页
        4.3.4 获取正文区域第32-34页
    4.4 基于标签相似度的多正文网页抽取技术第34-37页
        4.4.1 多正文网页概念第34-35页
        4.4.2 多正文网页特点分析第35-36页
        4.4.3 分正文抽取技术详述第36-37页
    4.5 算法设计及实验第37-39页
第五章 基于潜在语义的web信息聚合技术研究第39-56页
    5.1 概率主题模型简述第39-44页
        5.1.1 一元模型及一元混合模型第40-41页
        5.1.2 潜在语义分析模型第41-42页
        5.1.3 概率潜在语义分析模型第42-44页
    5.2 LDA模型第44-47页
        5.2.1 模型表示第44-46页
        5.2.2 Gibbs Sampling参数估计法第46-47页
    5.3 面向Web信息的LDA模型改进方法第47-52页
        5.3.1 概述第47-49页
        5.3.2 主题热度第49页
        5.3.3 主题数估计第49-50页
        5.3.4 模型训练第50-51页
        5.3.5 主题过滤及合并第51页
        5.3.6 文本归类及时间片分割第51-52页
    5.4 实验结果分析第52-56页
        5.4.1 实验语料与实验环境第52-53页
        5.4.2 实验设计与分析第53-56页
第六章 总结与展望第56-58页
    6.1 总结第56页
    6.2 展望第56-58页
参考文献第58-61页
致谢第61-62页
攻读学位期间发表论文第62页

论文共62页,点击 下载论文
上一篇:低浓度燃料条件下运行的单气室固体氧化物燃料电池
下一篇:锰掺杂铌铟镁酸铅—钛酸铅压电陶瓷的制备与机电性质研究