基于网页内容和链接的主题爬虫研究与实现
摘要 | 第1-5页 |
Abstract | 第5-8页 |
1 序言 | 第8-12页 |
·论文的背景 | 第8-9页 |
·国内外研究现状 | 第9-10页 |
·研究的目的及意义 | 第10页 |
·本文的组织工作 | 第10-12页 |
2 主题爬虫的工作原理及关键技术 | 第12-23页 |
·爬虫原理 | 第12-14页 |
·通用网络爬虫的工作原理 | 第12-13页 |
·主题爬虫的工作原理 | 第13-14页 |
·主题相关度计算 | 第14-19页 |
·向量空间模型 | 第15-18页 |
·布尔模型 | 第18页 |
·贝叶斯方法 | 第18-19页 |
·中文分词简介 | 第19-22页 |
·中文分词 | 第19-20页 |
·常用的分词算法 | 第20-21页 |
·常见的中文分词开源项目 | 第21-22页 |
·主题向量的建立 | 第22页 |
·本章小结 | 第22-23页 |
3 爬虫的爬行策略研究 | 第23-35页 |
·传统网络爬虫的爬行策略 | 第23-24页 |
·主题爬虫的爬行策略 | 第24-34页 |
·基于内容的主题爬行策略 | 第24-27页 |
·基于链接的主题爬虫爬行策略 | 第27-33页 |
·基于分类器的主题爬行策略 | 第33-34页 |
·本章小结 | 第34-35页 |
4 Hits算法及其改进 | 第35-49页 |
·Hits算法的基本思想 | 第35-36页 |
·Hits算法的过程 | 第36-40页 |
·构造Web子图 | 第36-38页 |
·计算权威值和中心值 | 第38-40页 |
·Hits算法的优缺点 | 第40-41页 |
·S-Hits算法 | 第41-45页 |
·MT-Hits算法 | 第45-48页 |
·本章小结 | 第48-49页 |
5 系统设计及实验 | 第49-59页 |
·系统开发环境 | 第49页 |
·系统开发的目标 | 第49页 |
·系统设计 | 第49-52页 |
·爬虫主要类介绍 | 第52-54页 |
·系统界面 | 第54-55页 |
·实验结果及分析 | 第55-58页 |
·本章小结 | 第58-59页 |
总结与展望 | 第59-60页 |
参考文献 | 第60-64页 |
攻读硕士学位期间发表的论文 | 第64-65页 |
后记 | 第65页 |