大规模Web论坛采集技术研究

摘要	第1-9页
图目录	第9-10页
表目录	第10-11页
第一章引言	第11-19页
·选题背景及研究意义	第11-13页
·Web 论坛采集的基本原理	第13页
·现状与相关研究	第13-17页
·基于整个Web 的信息采集	第14-15页
·基于主题的Web 信息采集	第15页
·基于个性化的Web 信息采集	第15-16页
·隐蔽Web 采集	第16页
·迁移的信息采集	第16-17页
·论文的组织	第17-19页
第二章 Web 信息采集介绍	第19-25页
·WEB 介绍	第19-23页
·Web 的历史与发展	第19-21页
·Web 基本原理与相关术语	第21-23页
·采集的基本概念	第23-25页
第三章面向web 论坛的采集方法	第25-45页
引言	第25-26页
·web 论坛概述	第26-29页
·Web 论坛的历史	第26-27页
·Web 论坛在国内的发展	第27-29页
·Web 论坛的价值和影响力	第29页
·论坛采集的难点	第29-31页
·采集陷阱	第30-31页
·噪声链接	第31页
·动态网页技术	第31-38页
·静态网页和动态网页比较	第32-33页
·动态网页对搜索引擎的影响	第33-34页
·动态网页URL 语法分析—URL 解析	第34-35页
·动态网页URL 分类算法	第35-38页
·基于版面扩展的论坛采集策略	第38-43页
·Web 论坛的逻辑结构	第38-39页
·主题链接提取框架	第39-40页
·版面链接URL 的判断	第40-41页
·主题索引链接的自动扩展	第41-43页
·实验	第43-45页
·与广度优先算法的比较	第43-44页
·结论	第44-45页
第四章大规模Web 论坛采集框架	第45-59页
引言	第45页
·大规模Web 论坛采集的关键问题	第45-49页
·DNS 缓存和预取	第46-47页
·页面并发采集	第47-48页
·URL 查重和重复网页	第48页
·页面刷新	第48-49页
·站点负载均衡	第49页
·我们的系统	第49-57页
·分站点采集的思想	第50-51页
·非阻塞socket 采集调度	第51-53页
·链接抽取与libwww	第53-54页
·bloomfiter 查重思想	第54-56页
·待采集URL 数据结构的设计	第56-57页
·负载均衡	第57页
·实验	第57-59页
第五章一个实用的大规模Web 论坛采集系统	第59-67页
·大规模实用系统的要求	第59-61页
·覆盖规模	第60页
·采集质量	第60页
·刷新采集	第60-61页
·我们的系统	第61-64页
·系统运行情况分析	第63-64页
·已有的商业系统	第64-65页
·一些比较	第65-67页
第六章结束语	第67-69页
·本文工作总结	第67页
·下一步研究方向	第67-69页
参考文献	第69-72页
致谢	第72-73页
作者简历	第73页