实时搜索引擎中时间信息的获取及简单应用

摘要	第1-6页
Abstract	第6-10页
第1章绪论	第10-20页
·搜索引擎	第10-15页
·搜索引擎的种类	第13-14页
·网络爬虫	第14-15页
·实时搜索引擎	第15-16页
·实时搜索引擎中产生的背景	第15-16页
·实时搜索引擎中的爬虫	第16页
·实时搜索引擎的研究现状	第16-18页
·本文结构安排	第18-20页
第2章相关技术	第20-27页
·HTML和XML	第20-22页
·XPath	第21-22页
·HTML和XML对比	第22页
·自然语言处理	第22-24页
·自动分词技术	第23页
·词性标注	第23-24页
·文本聚类	第24-27页
·文本的相似度衡量	第24-26页
·常见的聚类算法	第26-27页
第3章页面的重构	第27-53页
·页面的结构	第27-29页
·文本对象模型（DOM）	第28-29页
·页面解析器	第29-31页
·DOM Parser	第29-30页
·SAX Parser	第30页
·StAX Parser	第30-31页
·页面内容抽取的方法	第31-39页
·HTML页面中的可视化结点	第31-33页
·基于DOM结点信息的页面内容抽取方法	第33-34页
·基于页面分割的内容提取方法VIPS	第34-39页
·基于内容语义特征和可视化特征的页面重构算法	第39-50页
·页面内容的语义特征	第41-42页
·页面可视化结点的语义信息	第42-46页
·基于内容语义特征和可视化特征的页面重构算法SemV	第46-50页
·实验结果以及分析	第50-53页
第4章页面时间要素的估计	第53-64页
·页面的时间要素	第53页
·页面时间要素信息的获取	第53-57页
·基于网页档案数据库进行比对的方法	第54-55页
·基于页面内容理解的方法	第55-56页
·基于页面之间链接结构分析的方法	第56-57页
·基于事件模型的时间要素估计方法EOM	第57-61页
·事件的要素与联系	第57-59页
·基于事件对象模型的时间要素估计算法EOM	第59-61页
·实验以及结果分析	第61-64页
第5章页面时间要素在爬虫中的简单应用	第64-67页
·爬虫获取页面的更新信息的爬行策略	第64-65页
·基于页面更新周期的爬虫爬行策略	第65-67页
第6章总结与展望	第67-69页
·本文总结	第67-68页
·工作展望	第68-69页
参考文献	第69-72页
作者简介及在学期间所取得的科研成果	第72-73页
致谢	第73页