首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于自然标注的文本分类

摘要第4-5页
Abstract第5页
第1章 绪论第9-14页
    1.1 课题来源第9页
    1.2 课题研究意义第9-10页
    1.3 文本分类的研究现状第10-11页
    1.4 语料库构建的研究现状第11-13页
    1.5 本文的主要研究内容第13-14页
第2章 语料库自动构建相关技术介绍第14-21页
    2.1 引言第14页
    2.2 文本分类研究的主要技术第14-15页
    2.3 网络信息抽取第15-17页
        2.3.1 网页下载第15页
        2.3.2 网页结构分析第15-17页
        2.3.3 网页正文抽取第17页
    2.4 文本聚类分析第17-18页
    2.5 本文研究内容第18-20页
        2.5.1 网络信息抽取第18页
        2.5.2 信息整合第18-19页
        2.5.3 聚类去噪第19-20页
    2.6 本章总结第20-21页
第3章 基于自然标注的文本分类方法第21-37页
    3.1 引言第21页
    3.2 基于自然标注的文本分类的基本思想第21页
    3.3 标注信息获取第21-28页
        3.3.1 网页内部的块划分第24页
        3.3.2 基于规则的导航栏发现方法第24-27页
        3.3.3 基于链接关系的导航栏发现方法第27-28页
    3.4 导航项类别判定第28-29页
    3.5 网页内容提取方法第29-31页
        3.5.1 通过标签比提取正文的方法第30页
        3.5.2 批量网页中的正文提取方法第30-31页
    3.6 聚类方法对候选语料库的去噪第31-36页
        3.6.1 基于 k-means 聚类算法实现的去噪方法第32-33页
        3.6.2 基于凝聚层次聚类算法实现的去噪方法第33-35页
        3.6.3 基于近邻传播聚类算法的去噪方法第35-36页
    3.7 本章小结第36-37页
第4章 语料库自动构建系统的实现第37-44页
    4.1 引言第37页
    4.2 系统框架第37-38页
    4.3 爬虫模块第38-39页
    4.4 标注信息抽取模块第39-41页
        4.4.1 导航栏提取第39-40页
        4.4.2 候选类别生成第40-41页
    4.5 生成分类模块第41-42页
        4.5.1 正文链接标注第41-42页
        4.5.2 网页正文提取第42页
    4.6 候选语料库去噪模块第42-43页
    4.7 本章小结第43-44页
第5章 实验结果及分析第44-59页
    5.1 引言第44页
    5.2 分类系统的各模块结果及分析第44-46页
        5.2.1 对候选导航栏的锚文本及其子链接的分析第44-45页
        5.2.2 正文抽取模块结果与分析第45-46页
    5.3 测试用分类器及标准语料效果第46-55页
        5.3.1 人工标注的分类准确率第46-48页
        5.3.2 测试分类器以及标准语料在分类器上的效果第48-49页
        5.3.3 生成数据基于 SVM 分类器测试第49-50页
        5.3.4 基于分类器的聚类效果的测试第50-54页
        5.3.5 基于路透语料的系统生成数据测试第54-55页
    5.4 中文分类器的分类效果第55-58页
        5.4.1 系统生成中文语料结果第55-56页
        5.4.2 基于搜狗语料的中文分类结果测试第56-58页
    5.5 本章小结第58-59页
结论第59-60页
参考文献第60-64页
攻读硕士学位期间发表的论文及其它成果第64-67页
致谢第67页

论文共67页,点击 下载论文
上一篇:图像处理技术与统计学方法在自动化年轮分析系统中的应用
下一篇:虚拟平台中Inter-VM安全研究