| 摘要 | 第1-6页 |
| Abstract | 第6-10页 |
| 第1章 绪论 | 第10-20页 |
| ·搜索引擎 | 第10-15页 |
| ·搜索引擎的种类 | 第13-14页 |
| ·网络爬虫 | 第14-15页 |
| ·实时搜索引擎 | 第15-16页 |
| ·实时搜索引擎中产生的背景 | 第15-16页 |
| ·实时搜索引擎中的爬虫 | 第16页 |
| ·实时搜索引擎的研究现状 | 第16-18页 |
| ·本文结构安排 | 第18-20页 |
| 第2章 相关技术 | 第20-27页 |
| ·HTML和XML | 第20-22页 |
| ·XPath | 第21-22页 |
| ·HTML和XML对比 | 第22页 |
| ·自然语言处理 | 第22-24页 |
| ·自动分词技术 | 第23页 |
| ·词性标注 | 第23-24页 |
| ·文本聚类 | 第24-27页 |
| ·文本的相似度衡量 | 第24-26页 |
| ·常见的聚类算法 | 第26-27页 |
| 第3章 页面的重构 | 第27-53页 |
| ·页面的结构 | 第27-29页 |
| ·文本对象模型(DOM) | 第28-29页 |
| ·页面解析器 | 第29-31页 |
| ·DOM Parser | 第29-30页 |
| ·SAX Parser | 第30页 |
| ·StAX Parser | 第30-31页 |
| ·页面内容抽取的方法 | 第31-39页 |
| ·HTML页面中的可视化结点 | 第31-33页 |
| ·基于DOM结点信息的页面内容抽取方法 | 第33-34页 |
| ·基于页面分割的内容提取方法VIPS | 第34-39页 |
| ·基于内容语义特征和可视化特征的页面重构算法 | 第39-50页 |
| ·页面内容的语义特征 | 第41-42页 |
| ·页面可视化结点的语义信息 | 第42-46页 |
| ·基于内容语义特征和可视化特征的页面重构算法SemV | 第46-50页 |
| ·实验结果以及分析 | 第50-53页 |
| 第4章 页面时间要素的估计 | 第53-64页 |
| ·页面的时间要素 | 第53页 |
| ·页面时间要素信息的获取 | 第53-57页 |
| ·基于网页档案数据库进行比对的方法 | 第54-55页 |
| ·基于页面内容理解的方法 | 第55-56页 |
| ·基于页面之间链接结构分析的方法 | 第56-57页 |
| ·基于事件模型的时间要素估计方法EOM | 第57-61页 |
| ·事件的要素与联系 | 第57-59页 |
| ·基于事件对象模型的时间要素估计算法EOM | 第59-61页 |
| ·实验以及结果分析 | 第61-64页 |
| 第5章 页面时间要素在爬虫中的简单应用 | 第64-67页 |
| ·爬虫获取页面的更新信息的爬行策略 | 第64-65页 |
| ·基于页面更新周期的爬虫爬行策略 | 第65-67页 |
| 第6章 总结与展望 | 第67-69页 |
| ·本文总结 | 第67-68页 |
| ·工作展望 | 第68-69页 |
| 参考文献 | 第69-72页 |
| 作者简介及在学期间所取得的科研成果 | 第72-73页 |
| 致谢 | 第73页 |