首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

网页信息智能采集与分类的研究与实现

摘要第4-5页
ABSTRACT第5页
第一章 绪论第9-15页
    1.1 课题研究的背景和意义第9-10页
    1.2 国内外的研究现状第10-13页
        1.2.1 Web 信息抽取技术的研究现状第10-12页
        1.2.2 Web 文本分类技术的研究现状第12-13页
    1.3 本文的主要研究内容第13页
    1.4 本文的组织结构第13-15页
第二章 相关技术的研究第15-31页
    2.1 Web 信息抽取技术第15-17页
        2.1.1 Web 信息抽取的概念第15页
        2.1.2 Htmlparse 解析器第15-17页
            2.1.2.1 解析器的概述及原理第15-16页
            2.1.2.2 解析器的使用第16-17页
    2.2 信息处理相关技术第17-22页
        2.2.1 正则表达式技术第17-18页
            2.2.1.1 正则表达式的概述第17页
            2.2.1.2 Java 正则表达式第17-18页
        2.2.2 字符编码技术第18-20页
            2.2.2.1 字符编码定义第18页
            2.2.2.2 字符集与字符编码第18-19页
            2.2.2.3 Java 字符编码原理第19-20页
        2.2.3 网页去重技术第20-22页
            2.2.3.1 基于网页自身的网页去重第20-21页
            2.2.3.2 网页结构去重第21页
            2.2.3.3 网页特征去重第21-22页
    2.3 中文文本分类技术第22-29页
        2.3.1 中文分词第22-24页
        2.3.2 文本的特征表示第24-25页
        2.3.3 文本特征提取第25-26页
        2.3.4 文本分类算法第26-29页
    2.4 本章小结第29-31页
第三章 网页信息智能采集的研究第31-43页
    3.1 信息采集技术研究与实现第31-41页
        3.1.1 多线程网络爬虫的设计与实现第31-35页
            3.1.1.1 网络爬虫的遍历第31-34页
            3.1.1.2 网络爬虫的设计第34-35页
        3.1.2 基于规则模板的信息抽取技术及实现第35-38页
        3.1.3 信息采集的流程及配置第38-39页
        3.1.4 主要类和方法介绍第39-40页
        3.1.5 实验结果集分析第40-41页
    3.2 信息处理技术的研究与实现第41-42页
    3.3 本章小结第42-43页
第四章 信息分类的研究第43-59页
    4.1 文本分类体系的构建第43-44页
    4.2 中文分词模块设计第44-46页
    4.3 特征向量提取模块实现第46-50页
    4.4 训练语料库模块实现第50-52页
    4.5 分类模块设计第52-57页
        4.5.1 几种典型的分类算法第52-54页
        4.5.2 支持向量机算法实现分类模块第54-57页
    4.6 系统开发环境配置第57页
    4.7 本章小结第57-59页
第五章 信息采集与分类系统的设计与实现第59-73页
    5.1 系统总体结构设计第59-60页
    5.2 系统数据库设计第60-65页
    5.3 系统主要模块设计第65-72页
        5.3.1 用户权限管理模块第65-66页
        5.3.2 信息采集模块第66-69页
        5.3.3 信息分类模块第69-72页
    5.4 本章小结第72-73页
第六章 结论第73-75页
    6.1 总结第73页
    6.2 展望第73-75页
参考文献第75-77页
攻读硕士学位期间所取得的相关科研成果第77-79页
致谢第79页

论文共79页,点击 下载论文
上一篇:客服机器人答案排序学习方法研究
下一篇:Android平台下移动终端与pc机的通信系统设计