首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于主题的教育信息定向采集系统

摘要第1-4页
ABSTRACT第4-7页
1 引言第7-11页
   ·研究背景第7页
   ·国内外发展现状第7-9页
   ·论文主要内容及论文结构第9-11页
2 Web信息采集技术简介第11-24页
   ·Web信息采集的概念及特点第13-15页
     ·Web信息采集的定义第13-14页
     ·与人工采集方式的流程对比第14-15页
   ·Web信息采集技术概述第15-18页
     ·Web信息采集的基本结构第15页
     ·Web信息采集器的工作过程第15-17页
     ·Web信息采集面临的问题第17-18页
   ·Web信息采集的分类及方向第18-24页
     ·Web信息采集的发展第18-19页
     ·Web信息采集的分类第19-23页
     ·Web信息采集的方向第23-24页
3 基于主题的web信息采集研究第24-36页
   ·基于主题的Web信息采集分类第24-25页
     ·广泛主题和具体主题Web信息采集第24页
     ·固定主题和可变主题Web信息采集第24-25页
   ·主题在Web页面的分布特征第25-26页
     ·Hub特性第25页
     ·关联特性第25页
     ·站点主题特性第25-26页
     ·Tunnel特性第26页
   ·基于主题的Web信息采集主要技术第26-36页
     ·种子页面生成技术第26-27页
     ·主题表示技术第27-28页
     ·相关度计算策略第28-33页
     ·主题爬行策略第33-34页
     ·结束爬行策略第34-36页
4 系统分析与设计第36-54页
   ·总体设计第36-40页
     ·系统结构第36-37页
     ·运行流程第37-38页
     ·设计模型第38-40页
   ·主要功能模块设计第40-54页
     ·多线程Spider采集第40-45页
     ·页面解析第45-47页
     ·主题相关性判别第47-51页
     ·网页去重第51-52页
     ·主题词典选择第52-53页
     ·定向采集起点第53-54页
5 系统实现第54-72页
   ·系统功能模块图第54-55页
   ·功能实现及演示第55-62页
     ·系统启动过程第55-56页
     ·主题字典维护第56-57页
     ·任务分类管理第57页
     ·采集任务设置第57-58页
     ·采集网址设置第58-59页
     ·采集规则设置第59-60页
     ·高级设置第60-61页
     ·任务执行计划设置第61-62页
   ·部分模块代码第62-72页
     ·自动获取网址代码第62-63页
     ·采集网页数据代码第63-69页
     ·启动采集任务代码第69-72页
6 总结与展望第72-75页
   ·系统创新点设计与实现第72页
   ·遇到的问题和解决方法第72-73页
   ·展望未来第73-75页
致谢第75-76页
参考文献第76-77页

论文共77页,点击 下载论文
上一篇:金属材料检测LIMS系统改进方案设计和实施研究
下一篇:面向野外障碍物检测的半监督主动学习研究