首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

中文网页分类技术的研究与实现

摘要第6-7页
Abstract第7-8页
第1章 前言第11-17页
    1.1 课题研究的背景与意义第11-12页
    1.2 国内外研究现状第12-14页
        1.2.1 文本分类在国际上的发展第12-13页
        1.2.2 文本分类在国内的发展第13-14页
    1.3 本文的研究内容第14-15页
    1.4 本文的组织第15-17页
第2章 中文网页分类概述第17-24页
    2.1 中文网页自动分类的定义第17-19页
        2.1.1 文本分类的定义第17-18页
        2.1.2 中文网页分类的定义和特点第18-19页
    2.2 中文网页自动分类的过程第19-20页
    2.3 中文网页分类的关键第20-24页
        2.3.1 网页预处理第20-21页
        2.3.2 特征提取第21-22页
        2.3.3 分类算法第22页
        2.3.4 性能评估第22-24页
第3章 网页预处理技术及中文分词的实现第24-38页
    3.1 网页预处理概述第24-25页
    3.2 局部噪声处理第25-28页
        3.2.1 HTMLParser简介第25-28页
        3.2.2 基于HTMLParser预处理算法第28页
    3.3 全局噪声处理第28-32页
        3.3.1 近似镜像网页检测方法第29-31页
        3.3.2 近似镜像网页的检测算法第31-32页
    3.4 中文分词的实现第32-38页
        3.4.1 中文分词的主要问题第32-33页
        3.4.2 中文分词的方法第33-34页
        3.4.3 几种已有中文分词系统第34-35页
        3.4.4 中文分词的实现第35-38页
第4章 特征提取及TFIDF的改进第38-47页
    4.1 特征提取和表示第38-42页
        4.1.1 特征提取第38-40页
        4.1.2 特征表示第40-42页
    4.2 TFIDF的改进第42-47页
        4.2.1 TFIDF简介第42-43页
        4.2.2 TFIDF的不足第43-44页
        4.2.3 TFIDF的改进第44-47页
第5章 分类算法比较及改进方法第47-58页
    5.1 几种传统的分类算法第47-53页
        5.1.1 简单向量距离分类法第47页
        5.1.2 朴素贝叶斯分类法(NB)第47-49页
        5.1.3 K近邻分类法(kNN)第49-50页
        5.1.4 支持向量机分类法(SVM)第50-53页
    5.2 几种分类算法比较和改进方法第53-55页
        5.2.1 几种分类算法比较第53页
        5.2.2 几种已有分类算法改进方案第53-55页
    5.3 基于中心向量法的距离加权kNN分类算法第55-58页
        5.3.1 凸包及样本的近似均匀性验证第55-56页
        5.3.2 基于中心向量的距离加权kNN算法第56-58页
第6章 中文网页分类实现及分类测试第58-69页
    6.1 中文网页分类实现第58-63页
        6.1.1 中文网页分类模块介绍第58-60页
        6.1.2 中文网页分类系统实现第60-63页
    6.2 分类测试第63-69页
        6.2.1 测试用语料库第63页
        6.2.2 测试环境说明第63-64页
        6.2.3 测试评价指标第64页
        6.2.4 测试实验设置和结果第64-69页
总结与展望第69-71页
参考文献第71-75页
致谢第75-76页
攻读硕士学位期间发表的论文第76页

论文共76页,点击 下载论文
上一篇:45纳米掩膜版缺陷的可成像性研究
下一篇:多操作机排牙机器人的计算机控制