摘要 | 第1-5页 |
Abstract | 第5-9页 |
1 绪论 | 第9-15页 |
·课题的研究背景及意义 | 第9-10页 |
·国内外研究状况 | 第10-13页 |
·主题相关度判定的研究状况 | 第10-11页 |
·主题爬虫搜索策略的研究状况 | 第11-13页 |
·本文研究的主要内容和文章结构 | 第13-15页 |
2 搜索引擎和主题爬虫 | 第15-21页 |
·搜索引擎简介 | 第15-17页 |
·主题爬虫 | 第17-20页 |
·本章小结 | 第20-21页 |
3 主题爬虫的技术原理 | 第21-30页 |
·互联网上主题页面分布特征 | 第21页 |
·URL和正则表达式 | 第21-23页 |
·URL简介 | 第21-22页 |
·正则表达式 | 第22-23页 |
·网页获取 | 第23-24页 |
·网页内容分析 | 第24-28页 |
·噪音清理 | 第24页 |
·中文分词技术 | 第24-25页 |
·向量空间模型 | 第25-26页 |
·PageRank算法 | 第26页 |
·HITS算法 | 第26-28页 |
·网页去重和更新 | 第28-29页 |
·网页去重 | 第28-29页 |
·网页更新 | 第29页 |
·本章小结 | 第29-30页 |
4 主题爬虫相关算法研究与改进 | 第30-41页 |
·主题相关性算法 | 第30-34页 |
·VSM算法的研究现状 | 第30-31页 |
·基于整个页面的VSM算法改进 | 第31-34页 |
·改进的主题爬虫搜索策略 | 第34-40页 |
·改进的遗传算法 | 第35-38页 |
·模拟退火算法(SA) | 第38-39页 |
·基于改进的模拟退火遗传算法的主题搜索策略 | 第39-40页 |
·本章小结 | 第40-41页 |
5 爬虫关键技术的实现和算法改进实验 | 第41-54页 |
·澳洲建筑商服务系统中主题爬虫的实现 | 第41-48页 |
·澳洲建筑服务商系统简介 | 第41页 |
·系统开发环境 | 第41-42页 |
·澳洲建筑商服务系统中的主题爬虫的实现 | 第42-48页 |
·算法改进实验 | 第48-53页 |
·实验设计 | 第48-50页 |
·基于整个页面的改进VSM算法与传统VSM算法的实验 | 第50页 |
·基于HITS,Best-First和SAGA的主题搜索策略的实验对比 | 第50-53页 |
·本章小结 | 第53-54页 |
结论 | 第54-55页 |
致谢 | 第55-56页 |
参考文献 | 第56-59页 |
攻读学位期间的研究成果 | 第59页 |