首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于主题的Web信息采集技术研究

摘 要第1-5页
ABSTRACT第5-8页
第一章 引言第8-11页
   ·背景第8-9页
   ·本文安排第9-11页
第二章 WEB信息采集概述第11-18页
   ·WEB 信息采集系统的基本原理第11页
   ·WEB 信息采集系统的基本结构第11-13页
   ·WEB 信息采集面临的主要困难和相应的技术手段第13-15页
   ·采集系统实例第15-18页
第三章 WEB 信息采集的研究现状第18-24页
   ·基于整个WEB 的信息采集第18-19页
   ·增量式WEB 信息采集第19页
   ·基于主题的WEB 信息采集第19-20页
   ·基于用户个性化的WEB 信息采集第20-21页
   ·基于AGENT 的信息采集第21-22页
   ·迁移的信息采集第22页
   ·基于元搜索的信息采集:第22页
   ·小结第22-24页
第四章 基于主题的WEB 信息采集基本问题研究第24-44页
   ·基于主题的WEB 信息采集的定义第24页
   ·基于主题的WEB 信息采集的优点第24-25页
   ·基于主题的WEB 信息采集的分类第25-26页
   ·主题页面在WEB 上的分布特征第26-28页
   ·相关性判别算法研究第28-44页
第五章 基于主题的WEB 信息采集系统模型及我们的对策第44-48页
   ·系统模型第44页
   ·模型中的关键问题及我们的策略第44-48页
第六章 主题选择第48-51页
   ·主题的定义第48页
   ·主题分类目录第48-49页
   ·WEB 上的主题分类目录的特点第49页
   ·主题选择策略第49-51页
第七章 SPIDER 采集第51-56页
   ·SPIDER 的系统模型第51-52页
   ·采集算法及实现第52-56页
第八章 页面分析第56-59页
   ·HTML 语法分析第56页
   ·页面中正文的提取第56-57页
   ·页面中链接的提取第57-58页
   ·页面中标题的提取第58-59页
第九章 URL、页面与主题的相关性判定第59-65页
 9 1 URL 与主题的相关性判定——IPAGERANK 算法第60-63页
   ·页面与主题的相关性判定——向量空间模型算法第63-65页
第十章 系统的实现与总结第65-71页
   ·系统实现情况第65页
   ·系统测试结果第65-69页
 10 3 进一步的工作第69页
   ·结论第69-71页
参考文献第71-75页
致谢第75-76页
作者简介第76页

论文共76页,点击 下载论文
上一篇:面向对象的容错中间件的研究与实现
下一篇:攀枝花排土场边坡稳定性评价及放坡复垦初步研究