基于网页结构相关性预取技术研究

摘要	第1-4页
Abstract	第4-8页
第一章绪论	第8-14页
·课题的背景和意义	第8-10页
·研究课题描述	第10-12页
·主要工作与内容安排	第12-14页
·主要工作	第12-13页
·内容安排	第13-14页
第二章 WEB预取的特点及方法	第14-25页
·预取技术研究的可行性	第14-16页
·预取的分类	第16-21页
·客户(浏览器)端预取	第16-17页
·代理服务器端预取	第17-19页
·服务器端预取	第19-21页
·预取算法分析	第21-24页
·基于历史(History Based)的预取	第22页
·基于链接(link Based)的预取	第22-23页
·基于兴趣(interest based)的预取	第23-24页
·本章小结	第24-25页
第三章 WEB的结构相关性	第25-31页
·一个页面内部的半结构化数据资源具有结构相关性	第25-26页
·文档 URL中的目录路径具有结构相关性	第26页
·网页之间的超链接具有结构相关性	第26-30页
·超链接标志	第26-27页
·超链的有向图	第27-28页
·网页中链分布特点	第28-30页
·本章小结	第30-31页
第四章隐马尔可夫模型( HMM)	第31-37页
·隐马尔可夫模型基本思想	第31-33页
·隐马尔可夫模型	第31-32页
·HMM定义	第32-33页
·隐马尔可夫模型的三个基本问题	第33-35页
·识别问题的解决	第33-34页
·前向—后向算法	第34-35页
·用户访问行为的 Markov性	第35-36页
·本章小结	第36-37页
第五章基于网页结构相关性的预取模型	第37-49页
·Web简化模型描述	第37-38页
·代理服务器 Log预处理	第38-39页
·基于网页结构相关性的 Web信息提取	第39-46页
·信息提取技术	第39页
·建立特征词词典	第39-41页
·TF-IDF算法及其改进	第41-43页
·特征向量维数压缩	第43页
·特征项权重的计算方法	第43-45页
·特征词提取过程	第45-46页
·用户访问序列的输出概率	第46-48页
·本章小结	第48-49页
第六章基于网页结构相关性预取模型实现	第49-60页
·预取系统与代理服务器的衔接	第49页
·预取系统的结构	第49-54页
·离线挖掘用户的会话集	第50-52页
·在线预取子系统	第52-54页
·实验结果及分析	第54-59页
·性能评价指标	第54-55页
·实验设计	第55-57页
·测试结果分析	第57-59页
·本章小结	第59-60页
第七章结论与展望	第60-61页
·结论	第60页
·不足和展望	第60-61页
参考文献	第61-65页
附录1 攻读硕士期间发表学术论文	第65-66页
致谢	第66页