首页--工业技术论文--自动化技术、计算机技术论文--自动化技术及设备论文--自动化系统论文--数据处理、数据处理系统论文

网络论坛信息采集技术的研究与实现

摘要第5-7页
Abstract第7页
第一章 绪论第10-22页
    1.1 论文的研究背景与意义第10-12页
    1.2 国内外研究现状第12-17页
        1.2.1 互联网舆情分析、不良信息研究现状第12-13页
        1.2.2 网页信息爬取研究现状第13-15页
        1.2.3 网页信息抽取研究现状第15-17页
    1.3 项目支撑及背景第17-18页
    1.4 论文主要研究内容第18页
    1.5 论文结构组织第18-19页
    1.6 主要创新点第19-20页
    1.7 本章小结第20-22页
第二章 互联网不良信息监测及管理系统概述第22-26页
    2.1 支撑项目系统简介第22-23页
    2.2 网络论坛信息获取子系统概述第23页
    2.3 论文研究的关键问题以及系统的相关设计要点分析第23-25页
        2.3.1. 研究关键问题第23-25页
        2.3.2 系统的相关设计要点分析第25页
    2.4 本章小结第25-26页
第三章 相关技术及标准第26-32页
    3.1 HTML、HTML、XML第26-28页
        3.1.1 HTML第26-27页
        3.1.2 XHTML第27页
        3.1.3 XML第27-28页
    3.2 HttpCl ient、HtmlParser简介第28-29页
        3.2.1 HttpClient第28-29页
        3.2.2 HtmlParser第29页
    3.3 多线程技术第29-30页
    3.4 正则表达式技术第30-31页
    3.5 本章小结第31-32页
第四章 网络论坛信息采集的研究与实现第32-62页
    4.1 论坛爬虫策略第32-37页
        4.1.1 通用网络爬虫原理及其分析第32-33页
        4.1.2 针对论坛的结构特点分析第33-34页
        4.1.3 论坛爬虫模块设计关键问题分析第34-35页
        4.1.4 论坛爬虫爬行策略第35-37页
    4.2 过滤机制第37-48页
        4.2.1 基于URL链接格式的过滤第38-41页
        4.2.2. 基于内容的过滤校验第41-43页
        4.2.3 BG_q-Grams_u-Unrolling_s-Shift系列算法第43-47页
        4.2.4 实验及结果分析第47-48页
    4.3 论坛数据增量更新第48-61页
        4.3.1 论坛增量爬取算法第49-52页
        4.3.2 系统增量爬取调度第52-58页
        4.3.3 实验及结果分析第58-61页
    4.4 本章小结第61-62页
第五章 网络论坛信息的抽取与存储第62-70页
    5.1 网络论坛信息抽取第62-66页
        5.1.1 设计目标及抽取方案第62-63页
        5.1.2 信息抽取的整体架构设计第63-64页
        5.1.3 网页模板生成第64-65页
        5.1.4 抽取规则生成第65-66页
        5.1.5 信息抽取的相关数据表设计第66页
    5.2 论坛数据的存储第66-68页
    5.3 本章小结第68-70页
第六章 总结与展望第70-72页
    6.1 论文工作总结第70-71页
    6.2 工作展望第71-72页
致谢第72-74页
参考文献第74-78页
附录A 攻读硕士期间公开发表的论文第78-80页
附录B 攻读硕士期间参与完成的科研成果第80页

论文共80页,点击 下载论文
上一篇:新媒体环境下的南昌城市形象传播
下一篇:仿人智能机械手孔轴装配无标定视觉伺服研究