Web数据库重叠估计技术研究

中文摘要	第1-4页
Abstract	第4-7页
第一章引言	第7-11页
·论文背景	第7页
·研究意义	第7-8页
·主要工作	第8-9页
·论文结构与基本内容	第9-11页
第二章理想情况下的web数据库重叠估计	第11-20页
·概述	第11-12页
·问题描述	第11页
·相关工作	第11-12页
·朴素的估计方法	第12-14页
·基本原理	第12页
·问题的挑战	第12-13页
·朴素方法的步骤	第13页
·朴素方法的局限性	第13-14页
·改进的估计方法	第14-19页
·Zipf定律	第14-15页
·汉语中的高频字	第15页
·获取字段上的高频字	第15-18页
·改进方法的步骤	第18-19页
·本章小节	第19-20页
第三章重叠估计中的实体识别	第20-30页
·概述	第20-21页
·准备工作	第21-25页
·字段匹配	第21页
·领域知识	第21-23页
·字段预处理	第23-25页
·实体识别	第25-29页
·总体思路	第25页
·字段相似度计算	第25页
·可查询字段	第25-26页
·字段权值设定	第26-27页
·相似度计算	第27-28页
·阈值设定	第28-29页
·本章小节	第29-30页
第四章重叠率估计值修正	第30-35页
·概述	第30页
·web数据库的相似性	第30-31页
·估计值修正	第31-34页
·数据准备	第32-33页
·修正方法	第33-34页
·修正结果确定	第34页
·本章小节	第34-35页
第五章实验及分析	第35-48页
·概述	第35页
·重叠率估计实验	第35-40页
·数据集	第35-37页
·实验过程及结果	第37-40页
·实体识别实验	第40-43页
·数据集	第41页
·实验过程及结果	第41-43页
·估计值修正实验	第43-47页
·数据集	第43-44页
·实验过程及结果	第44-47页
·本章小节	第47-48页
第六章总结与展望	第48-50页
·总结	第48页
·展望	第48-50页
参考文献	第50-54页
攻读硕士学位期间公开发表的论文及参与的项目	第54-55页
致谢	第55-56页
详细摘要	第56-58页