基于快速相似度的Web结构挖掘的研究

摘要	第1-4页
ABSTRACT	第4-8页
第一章绪论	第8-12页
·研究背景	第8-9页
·国内外研究现状	第9-10页
·Web数据挖掘研究现状	第9-10页
·文本相似度研究现状	第10页
·本文研究内容	第10-11页
·本文组织安排	第11-12页
第二章 Web数据挖掘和文本相似度	第12-22页
·Web数据挖掘定义	第12页
·Web数据挖掘分类	第12-17页
·Web内容挖掘	第13-14页
·Web结构挖掘	第14-15页
·Web使用挖掘	第15-17页
·Web数据挖掘流程	第17-18页
·文本相似度介绍	第18-21页
·向量空间模型文本相似度算法	第19-20页
·基于汉明距离的文本相似度算法	第20-21页
·本章小结	第21-22页
第三章 Web结构挖掘	第22-29页
·Web结构挖掘	第22-23页
·Web结构挖掘的理论基础	第22页
·Web结构挖掘算法描述	第22-23页
·PageRank算法分析	第23-27页
·PageRank算法的定义	第23-24页
·PageRank算法演示	第24-26页
·PageRank算法的优缺点	第26-27页
·PageRank改进算法	第27-28页
·本章小结	第28-29页
第四章基于快速相似度PageRank算法	第29-36页
·汉明距离相似度算法的快速性	第29-32页
·复杂度对比	第29-30页
·实验对比	第30-32页
·快速相似度PageRank算法定义	第32-33页
·快速相似度PageRank算法	第33-35页
·引入问题	第33页
·改进的汉明距离相似度算法	第33-34页
·快速相似度RageRank算法公式	第34-35页
·本章小结	第35-36页
第五章快速相似度搜索引擎的设计与实现	第36-53页
·技术描述	第36-37页
·Lucene	第36页
·Nutch	第36页
·HTMLParser	第36-37页
·JE中文分词器	第37页
·开发环境描述	第37页
·快速相似度搜索引擎模型设计	第37-45页
·网页信息抓取	第38页
·网页内容分析	第38-40页
·网页索引建立	第40-42页
·网页索引结果排序	第42-43页
·网页检索工具与接口	第43-45页
·结果分析	第45-52页
·查全率(recall)分析	第45-48页
·查准率(precision)分析	第48-50页
·F-score平衡分析	第50-52页
·本章小结	第52-53页
第六章总结与展望	第53-54页
·主要工作和成果	第53页
·展望	第53-54页
参考文献	第54-57页
作者简介	第57-58页
致谢	第58页