首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

主题爬虫的研究与实现

摘要第1-6页
Abstract第6-9页
第1章 绪论第9-13页
   ·研究背景及意义第9-10页
   ·研究现状第10-11页
   ·研究内容及组织结构第11-13页
第2章 主题爬虫研究第13-23页
   ·爬虫工作原理第13-17页
     ·抓取策略第14页
     ·抓取权限第14-15页
     ·信息提取第15-16页
     ·动态网页的抓取第16页
     ·网页的更新第16-17页
   ·主题采集策略第17-23页
     ·基于网页内容的方法第17-19页
     ·基于Web链接分析的方法第19-23页
第3章 主题爬虫的设计第23-33页
   ·系统结构第23-25页
   ·数据结构第25-28页
   ·存储文件第28-29页
     ·文本文件第28页
     ·Url信息库第28-29页
     ·网页信息库第29页
   ·主题采集策略第29-33页
第4章 主题爬虫的实现第33-53页
   ·种子注入第33-34页
   ·抓取第34-41页
     ·HTTP文件抓取第35-38页
     ·FTP文件抓取第38-41页
     ·FILE文件抓取第41页
   ·解析第41-46页
     ·XML类文档解析第41-44页
     ·Microsoft DOC类文档解析第44-45页
     ·PDF文档解析第45-46页
   ·文本训练及页面的主题判定第46-49页
   ·Url更新及主题预测第49-53页
第5章 测试与分析第53-63页
   ·运行第53-56页
   ·测试第56-63页
     ·页面主题判定单元测试第56-58页
     ·Url主题预测单元测试第58-60页
     ·总体性能第60-63页
第6章 结束语第63-65页
   ·工作总结第63页
   ·进一步工作第63-65页
参考文献第65-67页
致谢第67-69页
硕士期间发表的论文第69页

论文共69页,点击 下载论文
上一篇:基于混合式P2P模型的消息中间件的设计与实现
下一篇:基于彩色条纹结构光的三维重建方法研究