首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

面向主题的网络爬虫设计与实现

摘要第1-6页
ABSTRACT第6-14页
第1章 绪论第14-21页
   ·课题研究背景第14页
   ·国内外研究现状第14-17页
     ·网页分类研究现状第15-16页
     ·搜索策略研究现状第16-17页
   ·WEKA 平台第17-18页
   ·本文所做的工作第18-21页
第2章 聚焦爬虫的架构及关键技术第21-26页
   ·引言第21-22页
   ·通用爬虫第22-23页
     ·通用爬虫模型第22-23页
     ·通用爬虫的不足第23页
   ·聚焦爬虫原理及架构第23-25页
   ·聚焦爬虫关键技术第25页
   ·小结第25-26页
第3章 常用网页分类算法第26-33页
   ·引言第26页
   ·文本分类算法第26-29页
     ·Na?ve Bayes 算法第26-27页
     ·TF-IDF 算法第27-28页
     ·KNN 算法第28页
     ·支持向量机第28-29页
   ·网页分类模型第29-32页
     ·利用网页信息的规则第29-30页
     ·网页分类模型第30页
     ·加权协调的网页分类第30-32页
   ·小结第32-33页
第4章 基于增量学习的网页识别算法第33-42页
   ·引言第33页
   ·博客网页第33-35页
     ·HTML 特征第34页
     ·URL 特征第34页
     ·文本特征第34-35页
     ·视觉特征第35页
   ·基于增量学习的主题网页识别算法第35-37页
     ·增量学习第35-36页
     ·主题网页识别算法第36-37页
   ·性能分析第37-41页
     ·软件平台第37-38页
     ·评价指标第38-39页
     ·实验结果第39-41页
   ·小结第41-42页
第5章 基于多元信息加权协调的搜索策略第42-52页
   ·引言第42页
   ·相关工作第42-45页
     ·OPIC 算法第42-44页
     ·C4.5 决策树算法第44-45页
   ·传统搜索策略第45-46页
     ·重要度优先的搜索策略第45-46页
     ·相关度优先的搜索策略第46页
   ·基于多元信息加权协调的搜索策略第46-49页
   ·实验及分析第49-51页
   ·小结第51-52页
第6章 聚焦爬虫IL-CRAWLER 实现第52-61页
   ·引言第52页
     ·Cora第52页
     ·IBM Focused Crawler第52页
   ·IL-CRAWLER 开发环境及其架构第52-54页
     ·IL-Crawler 开发环境第52-53页
     ·IL-Crawler 架构第53-54页
   ·IL-CRAWLER 建模第54-58页
     ·采集训练数据集第54-55页
     ·训练集建模第55-58页
   ·IL-CRAWLER 采集实验第58-60页
   ·小结第60-61页
结论第61-63页
参考文献第63-67页
致谢第67-68页
附录A 攻读学位期间完成的论文和软件著作权第68-69页
附录B 攻读学位期间参加的科研项目第69页

论文共69页,点击 下载论文
上一篇:基于可扩展策略库的流量控制研究与设计
下一篇:基于模型检查的网络协议分析与验证