首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

大规模Web论坛采集技术研究

摘要第1-9页
图目录第9-10页
表目录第10-11页
第一章 引言第11-19页
   ·选题背景及研究意义第11-13页
   ·Web 论坛采集的基本原理第13页
   ·现状与相关研究第13-17页
     ·基于整个Web 的信息采集第14-15页
     ·基于主题的Web 信息采集第15页
     ·基于个性化的Web 信息采集第15-16页
     ·隐蔽Web 采集第16页
     ·迁移的信息采集第16-17页
   ·论文的组织第17-19页
第二章 Web 信息采集介绍第19-25页
   ·WEB 介绍第19-23页
     ·Web 的历史与发展第19-21页
     ·Web 基本原理与相关术语第21-23页
   ·采集的基本概念第23-25页
第三章 面向web 论坛的采集方法第25-45页
 引言第25-26页
   ·web 论坛概述第26-29页
     ·Web 论坛的历史第26-27页
     ·Web 论坛在国内的发展第27-29页
     ·Web 论坛的价值和影响力第29页
   ·论坛采集的难点第29-31页
     ·采集陷阱第30-31页
     ·噪声链接第31页
   ·动态网页技术第31-38页
     ·静态网页和动态网页比较第32-33页
     ·动态网页对搜索引擎的影响第33-34页
     ·动态网页URL 语法分析—URL 解析第34-35页
     ·动态网页URL 分类算法第35-38页
   ·基于版面扩展的论坛采集策略第38-43页
     ·Web 论坛的逻辑结构第38-39页
     ·主题链接提取框架第39-40页
     ·版面链接URL 的判断第40-41页
     ·主题索引链接的自动扩展第41-43页
   ·实验第43-45页
     ·与广度优先算法的比较第43-44页
     ·结论第44-45页
第四章 大规模Web 论坛采集框架第45-59页
 引言第45页
   ·大规模Web 论坛采集的关键问题第45-49页
     ·DNS 缓存和预取第46-47页
     ·页面并发采集第47-48页
     ·URL 查重和重复网页第48页
     ·页面刷新第48-49页
     ·站点负载均衡第49页
   ·我们的系统第49-57页
     ·分站点采集的思想第50-51页
     ·非阻塞socket 采集调度第51-53页
     ·链接抽取与libwww第53-54页
     ·bloomfiter 查重思想第54-56页
     ·待采集URL 数据结构的设计第56-57页
     ·负载均衡第57页
   ·实验第57-59页
第五章 一个实用的大规模Web 论坛采集系统第59-67页
   ·大规模实用系统的要求第59-61页
     ·覆盖规模第60页
     ·采集质量第60页
     ·刷新采集第60-61页
   ·我们的系统第61-64页
     ·系统运行情况分析第63-64页
   ·已有的商业系统第64-65页
   ·一些比较第65-67页
第六章 结束语第67-69页
   ·本文工作总结第67页
   ·下一步研究方向第67-69页
参考文献第69-72页
致谢第72-73页
作者简历第73页

论文共73页,点击 下载论文
上一篇:试论罗马法对苏格兰的历史影响
下一篇:甲醇重整内燃机复合循环