首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

增量式Web信息采集与信息提取系统的研究与实现

摘要第1-5页
Abstract第5-9页
第1章 绪论第9-14页
   ·研究背景第9-10页
   ·研究意义第10页
   ·研究现状第10-13页
   ·本文安排第13-14页
第2章 WEB信息采集相关技术研究第14-26页
   ·信息采集系统概述第14-17页
     ·搜索引擎的基本结构第14-16页
     ·信息采集系统的工作原理第16-17页
   ·爬虫工作流程第17-20页
   ·增量采集技术第20-22页
     ·增量采集的定义第20页
     ·增量采集策略第20-22页
   ·信息抽取技术第22-25页
     ·信息抽取的策略第22-23页
     ·隐马尔可夫模型第23-25页
   ·本章小结第25-26页
第3章 改进的增量采集算法第26-35页
   ·目录型网页识别第26-27页
     ·目录型网页的定义第26页
     ·目录型网页识别算法第26-27页
     ·目录型网页识别的应用第27页
   ·网页的相似性分析第27-31页
     ·基于MD5算法的内容变化判定第28-30页
     ·网页去噪算法第30-31页
   ·预测网页的变化频率第31-34页
     ·泊松模型第31-33页
     ·改进的泊松模型第33-34页
   ·本章小结第34-35页
第4章 网页信息抽取算法第35-42页
   ·网页预处理第35-39页
   ·构造抽取模型第39-40页
   ·信息提取和精化第40-41页
   ·本章小结第41-42页
第5章 系统的实现与分析第42-55页
   ·系统需求分析第42页
   ·系统设计第42-44页
   ·系统实现第44-52页
     ·页面采集模块第44页
     ·页面解析模块第44-49页
     ·URL去重模块第49页
     ·页面去重模块第49-50页
     ·更新检测模块第50-52页
   ·系统增量采集实验第52-54页
     ·增量采集实验第52-53页
     ·信息提取实验第53-54页
   ·本章小结第54-55页
第6章 总结与展望第55-57页
   ·总结第55页
   ·下一步的工作第55-57页
致谢第57-58页
参考文献第58-63页
攻读硕士学位期间发表的学术论文第63页

论文共63页,点击 下载论文
上一篇:CORBA服务与Web服务的比较与实现
下一篇:通用高性能网络棋牌游戏服务端的研究和设计