基于快速相似度的Web结构挖掘的研究
摘要 | 第1-4页 |
ABSTRACT | 第4-8页 |
第一章 绪论 | 第8-12页 |
·研究背景 | 第8-9页 |
·国内外研究现状 | 第9-10页 |
·Web数据挖掘研究现状 | 第9-10页 |
·文本相似度研究现状 | 第10页 |
·本文研究内容 | 第10-11页 |
·本文组织安排 | 第11-12页 |
第二章 Web数据挖掘和文本相似度 | 第12-22页 |
·Web数据挖掘定义 | 第12页 |
·Web数据挖掘分类 | 第12-17页 |
·Web内容挖掘 | 第13-14页 |
·Web结构挖掘 | 第14-15页 |
·Web使用挖掘 | 第15-17页 |
·Web数据挖掘流程 | 第17-18页 |
·文本相似度介绍 | 第18-21页 |
·向量空间模型文本相似度算法 | 第19-20页 |
·基于汉明距离的文本相似度算法 | 第20-21页 |
·本章小结 | 第21-22页 |
第三章 Web结构挖掘 | 第22-29页 |
·Web结构挖掘 | 第22-23页 |
·Web结构挖掘的理论基础 | 第22页 |
·Web结构挖掘算法描述 | 第22-23页 |
·PageRank算法分析 | 第23-27页 |
·PageRank算法的定义 | 第23-24页 |
·PageRank算法演示 | 第24-26页 |
·PageRank算法的优缺点 | 第26-27页 |
·PageRank改进算法 | 第27-28页 |
·本章小结 | 第28-29页 |
第四章 基于快速相似度PageRank算法 | 第29-36页 |
·汉明距离相似度算法的快速性 | 第29-32页 |
·复杂度对比 | 第29-30页 |
·实验对比 | 第30-32页 |
·快速相似度PageRank算法定义 | 第32-33页 |
·快速相似度PageRank算法 | 第33-35页 |
·引入问题 | 第33页 |
·改进的汉明距离相似度算法 | 第33-34页 |
·快速相似度RageRank算法公式 | 第34-35页 |
·本章小结 | 第35-36页 |
第五章 快速相似度搜索引擎的设计与实现 | 第36-53页 |
·技术描述 | 第36-37页 |
·Lucene | 第36页 |
·Nutch | 第36页 |
·HTMLParser | 第36-37页 |
·JE中文分词器 | 第37页 |
·开发环境描述 | 第37页 |
·快速相似度搜索引擎模型设计 | 第37-45页 |
·网页信息抓取 | 第38页 |
·网页内容分析 | 第38-40页 |
·网页索引建立 | 第40-42页 |
·网页索引结果排序 | 第42-43页 |
·网页检索工具与接口 | 第43-45页 |
·结果分析 | 第45-52页 |
·查全率(recall)分析 | 第45-48页 |
·查准率(precision)分析 | 第48-50页 |
·F-score平衡分析 | 第50-52页 |
·本章小结 | 第52-53页 |
第六章 总结与展望 | 第53-54页 |
·主要工作和成果 | 第53页 |
·展望 | 第53-54页 |
参考文献 | 第54-57页 |
作者简介 | 第57-58页 |
致谢 | 第58页 |