首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于规则引擎的个性化网页爬虫研究

摘要第4-5页
ABSTRACT第5-6页
目录第7-9页
第一章 绪论第9-15页
    1.1 研究目的和意义第9-11页
    1.2 研究背景和现状第11-12页
    1.3 主要研究工作内容第12-13页
    1.4 研究内容与论文构成第13-15页
第二章 网络爬虫第15-24页
    2.1 爬虫结构第15-16页
    2.2 爬行算法第16-19页
        2.2.1 广度优先爬行算法第17-18页
        2.2.2 深度优先爬行算法第18-19页
        2.2.3 最佳优先爬行算法第19页
    2.3 页面分析算法第19-21页
        2.3.1 基于网络拓扑的分析算法第19-20页
        2.3.2 基于网页内容分析算法第20-21页
    2.4 基于规则引擎的个性化爬虫第21-23页
    2.5 小结第23-24页
第三章 基于规则引擎的个性化爬虫设计第24-31页
    3.1 基于规则引擎的个性化爬虫架构第24-28页
        3.1.1 功能分析第24-25页
        3.1.2 形式化描述第25-26页
        3.1.3 基本流程第26-28页
    3.2 个性化爬虫规则设计第28-30页
    3.3 小结第30-31页
第四章 个性化爬虫实现第31-44页
    4.1 Heritrix爬虫结构第31-33页
    4.2 整合规则引擎第33-36页
        4.2.1 消息转换器第33-34页
        4.2.2 规则引擎与网络爬虫的整合第34-36页
    4.3 爬行规则库第36-39页
        4.3.1 个性化设置规则转换器第36-38页
        4.3.2 爬行算法规则库第38-39页
        4.3.3 网页识别规则库第39页
    4.4 任务管理第39-41页
    4.5 抓取处理第41-43页
    4.6 小结第43-44页
第五章 实验数据及分析第44-55页
    5.1 基于规则引擎的个性化爬虫使用第44-50页
    5.2 传统个性化爬虫与基于规则引擎对比第50-54页
    5.3 小结第54-55页
第六章 总结与展望第55-58页
    6.1 总结第55-56页
    6.2 展望第56-58页
参考文献第58-62页
致谢第62-63页
攻读学位期间主要的研究成果目录第63页

论文共63页,点击 下载论文
上一篇:水下图像实时拼接方法的研究
下一篇:多机器人烟羽跟踪算法实验研究