首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

过滤型网络爬虫的研究与设计

摘要第1-5页
ABSTRACT第5-10页
第一章 绪论第10-13页
   ·论文的背景第10-11页
   ·发展现状第11-12页
   ·论文的目的和意义第12页
   ·论文的主要研究内容第12-13页
第二章 网络爬虫技术第13-21页
   ·网络爬虫的作用第13-14页
   ·通用网络爬虫技术第14-17页
     ·通用网络爬虫的基本结构第14-16页
     ·通用网络爬虫的爬行策略第16-17页
   ·聚焦网络爬虫技术第17-20页
     ·聚焦网络爬虫的基本结构第17-19页
     ·聚焦网络爬虫的爬行策略第19-20页
   ·本章小结第20-21页
第三章 基于链接过滤的网络爬虫第21-36页
   ·传统中基于链接过滤的爬行算法第21-22页
     ·PangRank 算法第21页
     ·Authorities And Hub 算法第21-22页
     ·传统算法的特点第22页
   ·基于规则匹配的链接过滤算法第22-35页
     ·网页链接特征第22-23页
     ·单模式特征链接群体第23页
     ·多模式特征链接群体第23-24页
     ·基于链接特征的模式匹配算法第24页
     ·单模式链接群: 基于链接特征的改进BM 算法第24-29页
       ·BM 算法介绍第24-26页
       ·基于链接特征的改进BM 算法第26-27页
       ·实验及结果第27-29页
     ·多模式链接群:Wu_Manbe194 算法在链接过滤中的应用第29-35页
       ·Wu_Manbe194 算法第30-33页
       ·实验及结果第33-35页
   ·本章小结第35-36页
第四章 基于内容过滤的网络爬虫第36-50页
   ·基于网页内容特征的过滤算法第36-42页
     ·网页内容特征选取第36-37页
     ·基于决策树的网站类别辨识算法第37-39页
     ·实验及结果第39-42页
   ·基于向量空间模型的主题过滤算法第42-44页
     ·基于标签权重的网页文本特征词选择算法第42-44页
     ·向量空间模型构建及相似度计算第44页
   ·基于分类器的主题类别过滤算法第44-48页
     ·非结构化数据的分类过程第45-46页
     ·基于朴素贝叶斯分类器的主题类别过滤算法第46-47页
     ·实验及结果第47-48页
   ·本章小节第48-50页
第五章 过滤型网络爬虫系统设计第50-64页
   ·系统总体设计第50-53页
     ·系统总体工作流程图第50-52页
     ·系统总体结构图第52-53页
   ·系统主要模块及关键技术介绍第53-62页
     ·HTTP 获取模块第53-57页
       ·HTTP 协议分析第53-56页
       ·HTTP 获取模块关键技术第56-57页
     ·链接分析模块第57-58页
     ·过滤引擎模块第58-59页
     ·增量检测获取模块第59-60页
       ·增量检测获取模块关键技术第59-60页
     ·线程池工作模块第60-62页
   ·系统运行结果第62-63页
   ·本章小结第63-64页
第六章 全文总结与展望第64-65页
   ·全文总结第64页
   ·不足与展望第64-65页
参考文献第65-68页
攻读硕士学位期间发表的学术论文第68-69页
致谢第69页

论文共69页,点击 下载论文
上一篇:工业企业循环经济体系研究
下一篇:资源型城市经济转型研究--以乌海市发展循环经济为例