首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于网页内容和链接的主题爬虫研究与实现

摘要第1-5页
Abstract第5-8页
1 序言第8-12页
   ·论文的背景第8-9页
   ·国内外研究现状第9-10页
   ·研究的目的及意义第10页
   ·本文的组织工作第10-12页
2 主题爬虫的工作原理及关键技术第12-23页
   ·爬虫原理第12-14页
     ·通用网络爬虫的工作原理第12-13页
     ·主题爬虫的工作原理第13-14页
   ·主题相关度计算第14-19页
     ·向量空间模型第15-18页
     ·布尔模型第18页
     ·贝叶斯方法第18-19页
   ·中文分词简介第19-22页
     ·中文分词第19-20页
     ·常用的分词算法第20-21页
     ·常见的中文分词开源项目第21-22页
   ·主题向量的建立第22页
   ·本章小结第22-23页
3 爬虫的爬行策略研究第23-35页
   ·传统网络爬虫的爬行策略第23-24页
   ·主题爬虫的爬行策略第24-34页
     ·基于内容的主题爬行策略第24-27页
     ·基于链接的主题爬虫爬行策略第27-33页
     ·基于分类器的主题爬行策略第33-34页
   ·本章小结第34-35页
4 Hits算法及其改进第35-49页
   ·Hits算法的基本思想第35-36页
   ·Hits算法的过程第36-40页
     ·构造Web子图第36-38页
     ·计算权威值和中心值第38-40页
   ·Hits算法的优缺点第40-41页
   ·S-Hits算法第41-45页
   ·MT-Hits算法第45-48页
   ·本章小结第48-49页
5 系统设计及实验第49-59页
   ·系统开发环境第49页
   ·系统开发的目标第49页
   ·系统设计第49-52页
   ·爬虫主要类介绍第52-54页
   ·系统界面第54-55页
   ·实验结果及分析第55-58页
   ·本章小结第58-59页
总结与展望第59-60页
参考文献第60-64页
攻读硕士学位期间发表的论文第64-65页
后记第65页

论文共65页,点击 下载论文
上一篇:一种易于硬件实现的图像有损压缩算法
下一篇:基于SOA的高校信息系统集成的研究