首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于谱哈希的大规模网页分类算法研究与实现

摘要第10-11页
ABSTRACT第11-12页
第一章 绪论第13-18页
    1.1 研究背景及意义第13-15页
        1.1.1 研究背景第13-14页
        1.1.2 研究意义第14-15页
    1.2 研究现状第15-16页
        1.2.1 基于网页内容分类的研究现状第15-16页
        1.2.2 基于网页特征分类的研究现状第16页
    1.3 本文主要工作第16-17页
    1.4 本文的组织结构第17-18页
第二章 相关研究第18-31页
    2.1 网页自动分类概述第18-20页
        2.1.1 网页分类的定义第18页
        2.1.2 中文网页分类的特点第18-19页
        2.1.3 中文网页分类的过程第19-20页
    2.2 网页预处理第20-23页
        2.2.1 网页去噪第20-21页
        2.2.2 中文自动分词第21-23页
            2.2.2.1 字符串匹配分词法第21-22页
            2.2.2.2 词频统计分词法第22-23页
            2.2.2.3 基于理解的分词法第23页
    2.3 特征选择第23-25页
        2.3.1 文档频率DF (Document Frequency)第23-24页
        2.3.2 互信息MI(Mutual Information)第24页
        2.3.3 卡方检查CHI(CHI-square statistic)第24-25页
    2.4 文本表示模型第25-26页
        2.4.1 布尔模型(Boolean Model)第25页
        2.4.2 向量空间模型VSM(Vector Space Model)第25-26页
    2.5 特征权重计算第26-28页
        2.5.1 布尔权重第27页
        2.5.2 词频权重第27页
        2.5.3 TF-IDF权重第27-28页
    2.6 分类算法第28-30页
        2.6.1 类中心法(Category Centroid)第28页
        2.6.2 KNN算法第28-29页
        2.6.3 支持向量机算法第29-30页
    2.7 本章小结第30-31页
第三章 大规模网页分类算法设计第31-42页
    3.1 当前网页分类过程存在问题分析第31-33页
        3.1.1 分类算法存在问题分析第31-32页
        3.1.2 常用降维方法存在问题分析第32-33页
        3.1.3 特征权重计算方法存在问题分析第33页
    3.2 网页分类算法优化方案第33-40页
        3.2.1 综合权重(Comprehensive Weight,CW)评估方法第33-35页
            3.2.1.1 长度参数LenWeight第34页
            3.2.1.2 位置参数PosWeight第34-35页
            3.2.1.3 类间分布参数DA第35页
            3.2.1.4 类内部分布参数DW第35页
        3.2.2 综合权重特征选择( Comprehensive Weight-Feature Selection,CW-FS)方法第35-36页
        3.2.3 谱哈希降维法(Spectral hash--Feature reduction,SH-FR)第36-38页
        3.2.4 网页预分类方法第38-40页
            3.2.4.1 预分类的思想第38-39页
            3.2.4.2 预分类的关键词表第39页
            3.2.4.3 预分类方法的分类步骤第39-40页
    3.3 基于谱哈希的大规模中文网页分类算法设计第40-41页
    3.4 本章小结第41-42页
第四章 基于谱哈希的大规模网页分类算法实现第42-55页
    4.1 基于谱哈希的大规模中文网页分类算法流程第42-44页
    4.2 网页预处理的实现第44-47页
        4.2.1 网页文本信息抽取的实现第44-45页
        4.2.2 文本信息分词的实现第45-47页
    4.3 网页预分类的实现第47-48页
    4.4 CW-FS特征选择方法的实现第48-50页
    4.5 网页向量化表示的实现第50-51页
    4.6 基于谱哈希网页向量降维方法的实现第51-52页
    4.7 KNN分类器的实现第52-54页
    4.8 本章小结第54-55页
第五章 基于谱哈希的大规模网页分类算法测试第55-63页
    5.1 数据集第55-56页
    5.2 测试标准第56页
    5.3 优化方案测试第56-59页
        5.3.1 预分类方法测试第56-57页
        5.3.2 CW-FS特征选择测试第57-58页
        5.3.3 网页向量化表示测试第58-59页
        5.3.4 经谱哈希降维后方法测试第59页
    5.4 基于谱哈希的大规模中文网页分类算法测试第59-62页
        5.4.1 测试不同K值对分类器的影响第60页
        5.4.2 测试不同训练集规模对KNN分类算法的影响第60-61页
        5.4.3 两种算法对比测试结果第61-62页
    5.5 测试分析第62-63页
第六章 总结与展望第63-65页
    6.1 主要工作总结第63页
    6.2 下一步工作展望第63-65页
致谢第65-66页
参考文献第66-70页
作者在学期间取得的学术成果第70页

论文共70页,点击 下载论文
上一篇:基于Snort的XSS漏洞检测与防御系统的设计
下一篇:基于白名单的企业网服务控制策略分发机制研究与实现