首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

基于主题和类别的网络新闻采集系统设计与实现

摘要第5-7页
ABSTRACT第7-8页
第一章 绪论第9-16页
    1.1 研究背景及意义第9-11页
    1.2 国内外研究现状第11-14页
        1.2.1 主题爬虫的国内外研究现状第11-12页
        1.2.2 分类器的国内外研究现状第12-14页
    1.3 主要研究工作和内容第14-15页
    1.4 论文章节安排第15-16页
第二章 相关理论和技术第16-25页
    2.1 Robots协议第16-17页
    2.2 通用网络爬虫的工作原理第17-20页
        2.2.1 网页源代码获取第18-19页
        2.2.2 网页解析第19页
        2.2.3 URL去重第19-20页
    2.3 支持向量机第20-21页
    2.4 主题爬虫搜索策略第21-22页
    2.5 Xpath技术第22-23页
        2.5.1 Xpath简介第22页
        2.5.2 Xpath的使用第22-23页
    2.6 Web信息抽取第23-24页
    2.7 本章小结第24-25页
第三章 系统设计第25-41页
    3.1 系统需求分析第25-26页
    3.2 系统总体设计第26-28页
        3.2.1 系统体系结构第26-27页
        3.2.2 系统工作流程第27-28页
    3.3 系统详细设计第28-39页
        3.3.1 知名新闻网站种子注入模块第28-29页
        3.3.2 网页源代码获取模块第29-32页
        3.3.3 网页解析模块第32-33页
        3.3.4 分类模块第33-35页
        3.3.5 主题过滤模块第35-36页
        3.3.6 网页信息抽取模块第36-37页
        3.3.7 URL去重模块第37-38页
        3.3.8 URL调度模块第38-39页
    3.4 系统数据库设计第39-40页
    3.5 本章小结第40-41页
第四章 系统实现第41-49页
    4.1 界面布局第41-42页
        4.1.1 用户登录界面第41页
        4.1.2 采集界面第41-42页
    4.2 模块及功能实现第42-47页
        4.2.1 切分词处理实现第43-44页
        4.2.2 基于主题的网络新闻采集实现第44-45页
        4.2.3 基于类别的网络新闻采集实现第45-46页
        4.2.4 网络新闻信息抽取模块实现第46页
        4.2.5 数据库连接与存储实现第46-47页
    4.3 本章小结第47-49页
第五章 系统运行与测试第49-54页
    5.1 系统运行第49页
        5.1.1 系统开发环境第49页
        5.1.2 系统运行环境第49页
    5.2 系统测试第49-53页
        5.2.1 系统测试内容第49-50页
        5.2.2 系统功能测试第50页
        5.2.3 系统性能测试第50-53页
    5.3 本章小结第53-54页
第六章 总结与展望第54-56页
    6.1 总结第54页
    6.2 展望第54-56页
参考文献第56-58页
致谢第58页

论文共58页,点击 下载论文
上一篇:高中生政治素质现状及对策研究
下一篇:高中思想政治教学中的生态文明教育探究