首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

面向微博的网络爬虫研究与实现

摘要第5-6页
ABSTRACT第6页
第1章 绪论第7-10页
    1.1 研究背景及意义第7-8页
    1.2 国内外研究现状第8-9页
    1.3 论文的研究内容第9页
    1.4 论文的组织结构第9-10页
第2章 网络爬虫概述第10-14页
    2.1 网络爬虫简介第10-11页
        2.1.1 网络爬虫工作原理第10页
        2.1.2 礼貌爬虫策略第10-11页
    2.2 网络爬虫分类第11-14页
        2.2.1 通用网络爬虫第11-12页
        2.2.2 主题网络爬虫第12-13页
        2.2.3 深层网络爬虫第13-14页
第3章 关键技术研究第14-32页
    3.1 网页搜索策略第14-15页
        3.1.1 广度优先搜索策略第14-15页
        3.1.2 深度优先搜索策略第15页
        3.1.3 最佳优先搜索策略第15页
    3.2 URL去重算法第15-19页
        3.2.1 MD5第16-17页
        3.2.2 SimHash第17-18页
        3.2.3 Bloom Filter第18-19页
    3.3 网页分析算法第19-23页
        3.3.1 PageRank第19-21页
        3.3.2 HITS第21-22页
        3.3.3 OPIC第22-23页
    3.4 信息抽取技术第23-24页
        3.4.1 信息抽取概述第23-24页
        3.4.2 正则表达式第24页
    3.5 网页更新策略第24-26页
    3.6 Ajax技术第26-28页
        3.6.1 Ajax概述第26-27页
        3.6.2 Ajax特点第27-28页
    3.7 DOM第28-29页
    3.8 XPath第29-32页
        3.8.1 XPath概述第29-30页
        3.8.2 XPath实例第30-32页
第4章 系统的设计与实现第32-44页
    4.1 微博网站分析第32页
    4.2 浏览器工作原理第32-34页
        4.2.1 浏览器概述第32-33页
        4.2.2 渲染引擎第33-34页
    4.3 系统总体设计第34-35页
    4.4 系统子模块设计第35-41页
        4.4.1 URL管理模块第35-36页
        4.4.2 网页抓取模块第36-37页
        4.4.3 信息抽取模块第37-38页
        4.4.4 JavaScript解析模块第38页
        4.4.5 DOM构建模块第38-39页
        4.4.6 事件处理模块第39-40页
        4.4.7 数据库设计第40-41页
    4.5 系统运行结果第41-44页
第5章 总结与展望第44-46页
    5.1 总结第44页
    5.2 展望第44-46页
参考文献第46-50页
致谢第50-51页

论文共51页,点击 下载论文
上一篇:海关进境物品税征收的困境与对策--以税收遵从的视角
下一篇:基于Android平台的多屏互动系统研究