基于增量学习的主题爬行策略研究
摘要 | 第1-5页 |
Abstract | 第5-9页 |
1 绪论 | 第9-13页 |
·课题研究的背景和意义 | 第9-10页 |
·主题搜索的研究现状 | 第10-12页 |
·本文的主要研究内容 | 第12-13页 |
2 主题爬虫相关知识 | 第13-19页 |
·主题爬虫工作原理 | 第13页 |
·主题爬行策略 | 第13-15页 |
·基于内容的主题爬虫 | 第13-14页 |
·基于分类的主题爬虫 | 第14页 |
·基于链接的主题爬虫 | 第14-15页 |
·主题意图提取 | 第15页 |
·相关性计算 | 第15-17页 |
·基于URL 的相关度计算 | 第15-16页 |
·基于内容的相似度计算 | 第16-17页 |
·Web 网页变化 | 第17-19页 |
3 形式概念分析及其在主题搜索中的应用 | 第19-27页 |
·形式概念分析 | 第19-22页 |
·形式概念分析现状 | 第19页 |
·形式概念分析理论基础 | 第19-21页 |
·概念格的构建 | 第21-22页 |
·概念格在主题搜索中的应用 | 第22-24页 |
·概念背景图 | 第24-27页 |
·核心概念 | 第24页 |
·基于概念相似度的背景图 | 第24-25页 |
·基于分层和相似度的概念背景图 | 第25-27页 |
4 基于增量学习的主题爬行策略 | 第27-43页 |
·增量学习思想来源 | 第27-28页 |
·增加主题相关概念 | 第28-36页 |
·主题相关网页 | 第29页 |
·增量概念及其生产算法 | 第29-33页 |
·更新概念背景图 | 第33-36页 |
·删除主题不相关概念 | 第36-41页 |
·爬行系统架构 | 第41-43页 |
5 实验 | 第43-56页 |
·系统构建 | 第43页 |
·试验过程 | 第43-52页 |
·数据集 | 第43-47页 |
·选取初始URLs | 第47-48页 |
·生成概念格 | 第48页 |
·得到概念背景图 | 第48-49页 |
·利用原始背景图爬行预测结果 | 第49-51页 |
·增加主题相关网页后爬行预测结果 | 第51页 |
·删除主题不相关网页后爬行预测结果 | 第51-52页 |
·结果分析 | 第52-56页 |
·评价指标 | 第52页 |
·对比策略 | 第52页 |
·结果分析 | 第52-56页 |
6 结论 | 第56-58页 |
·总结 | 第56页 |
·展望 | 第56-58页 |
参考文献 | 第58-62页 |
攻读硕士学位期间学术论文及科研情况 | 第62-63页 |
致谢 | 第63-64页 |