摘要 | 第1-5页 |
Abstract | 第5-10页 |
第1章 绪论 | 第10-16页 |
·课题背景及意义 | 第10-11页 |
·垂直搜索引擎概述 | 第11-15页 |
·通用搜索搜索引擎的弊端 | 第11-12页 |
·垂直搜索引擎优势 | 第12-13页 |
·聚焦网络爬虫 | 第13-15页 |
·本文的研究目标及内容组织 | 第15页 |
·本章小结 | 第15-16页 |
第2章 理论基础与相关技术 | 第16-31页 |
·基于链接分析的算法技术 | 第16-21页 |
·PageRank算法 | 第16-18页 |
·HITS算法 | 第18-20页 |
·PageRank与HITS算法的比较 | 第20-21页 |
·中文分词技术 | 第21-25页 |
·基于字符串匹配的分词方法 | 第21-24页 |
·基于统计的分词方法 | 第24-25页 |
·基于理解的分词方法 | 第25页 |
·文本分类技术 | 第25-30页 |
·文本特征项的提取 | 第25-28页 |
·特征项权重的计算 | 第28-30页 |
·分类方法 | 第30页 |
·本章小结 | 第30-31页 |
第3章 基于主题相关的页面排序算法 | 第31-39页 |
·基于主题相关的随机冲浪者模型 | 第31页 |
·基于内容与链接分析的主题相关PageRank算法 | 第31-34页 |
·算法核心思想 | 第31-32页 |
·算法描述 | 第32-34页 |
·主题相关页面排序算法中关于Dangling Page的处理 | 第34-38页 |
·Dangling Page产生原因 | 第35页 |
·Dangling Page的处理 | 第35-38页 |
·本章小结 | 第38-39页 |
第4章 基于主题相关的网站排名算法 | 第39-49页 |
·基于HostGraph的主题相关性网站重要性排名 | 第39-42页 |
·基于内容与链接分析的主题相关AggregateRank网站排名算法 | 第42-48页 |
·基于主题的网站访问概率 | 第42-45页 |
·基于主题相关的AggregateRank网站排序算法 | 第45-48页 |
·本章小结 | 第48-49页 |
第5章 系统组成与设计 | 第49-60页 |
·系统目标 | 第49页 |
·系统架构 | 第49-51页 |
·系统功能模块设计 | 第51-56页 |
·主题爬虫的设计 | 第51-54页 |
·主题相关性评分器的设计 | 第54-55页 |
·基于主题相关网站重要性排名分布式计算器的设计 | 第55-56页 |
·实验结果及评估 | 第56-59页 |
·本章小结 | 第59-60页 |
第6章 总结与展望 | 第60-62页 |
·总结 | 第60-61页 |
·展望 | 第61-62页 |
参考文献 | 第62-65页 |
致谢 | 第65-66页 |
作者简历 | 第66页 |