基于语义相似度的WEB结构挖掘研究及实现

摘要	第1-4页
Abstract	第4-8页
1 绪论	第8-12页
·引言	第8-9页
·研究概述	第9-10页
·本论文主要工作及组织结构	第10-12页
2 Web数据挖掘与语义相似度	第12-27页
·Web数据挖掘概述	第12-13页
·Web数据挖掘的类别	第13-17页
·Web内容挖掘	第13-14页
·Web使用挖掘	第14-15页
·Web结构挖掘	第15-17页
·Web数据挖掘流程	第17-18页
·Web数据挖掘的应用前景	第18-19页
·语义相似度的含义及分类	第19-21页
·《知网》语义字典	第21-26页
·《知网》简介	第21-22页
·《知网》的系统结构	第22-23页
·《知网》中的描述语言	第23-26页
·本章小结	第26-27页
3 Web结构挖掘算法	第27-35页
·PageRank算法	第27-33页
·PageRank的基本思想	第27页
·PageRank的数学定义	第27-29页
·PageRank的修正式	第29-30页
·PageRank的性能分析	第30-32页
·PageRank的结果讨论	第32-33页
·其它算法简介	第33-34页
·HITS算法	第33-34页
·阈值算法	第34页
·SALSA算法	第34页
·本章小结	第34-35页
4 基于语义相似度的PageRank算法改进	第35-49页
·PageRank算法存在的缺陷	第35页
·现有的改进方法	第35-38页
·Hilltop算法	第35-36页
·主题相关的PageRank算法	第36页
·PageRank-Pro算法	第36-37页
·融入时间权值的改进算法	第37页
·dPageRank算法	第37-38页
·基于《知网》语义相似度的计算	第38-46页
·语义距离及其与语义相似度的关系	第38页
·相似度计算应考虑的因素	第38-39页
·相似度基本算法	第39-40页
·义原相似度的计算	第40-42页
·词语相似度的计算	第42-43页
·复合短语和句子的相似度计算	第43-46页
·融入语义相似度的PageRank算法优化	第46-48页
·锚文本	第46-47页
·融入语义相似度的PageRank修正式	第47-48页
·本章小结	第48-49页
5 模拟系统的实现及测试	第49-68页
·系统框架设计	第49页
·数据收集阶段	第49-52页
·网页预处理和解析模块	第52-54页
·正向索引及倒排索引	第54-55页
·正向索引	第54页
·倒排索引	第54-55页
·链接拓扑结构图	第55-57页
·融入语义相似度的PageRank值计算	第57-59页
·查询服务	第59页
·测试结果分析	第59-68页
·查准率分析	第60-63页
·满意度分析	第63-66页
·统计分析	第66-67页
·分析总结	第67-68页
6 总结与展望	第68-69页
·本文的主要工作和研究成果	第68页
·进一步的工作展望	第68-69页
致谢	第69-70页
参考文献	第70-72页