首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

垂直搜索引擎若干问题研究

目录第1-5页
摘要第5-7页
ABSTRACT第7-9页
图目录第9-11页
表目录第11-12页
第一章. 绪论第12-26页
   ·本文研究背景第12-13页
   ·垂直搜索引擎的的研究现状第13-23页
     ·基于主题的定向搜索概述第14-15页
     ·深度Web的领域数据集成第15-17页
     ·垂直搜索系统的性能指标第17-19页
     ·面向领域的Web数据挖掘及可视化展示第19-23页
   ·本文的研究目标和主要贡献第23-24页
   ·本文结构第24-26页
第二章. Web信息采集与搜索引擎基础第26-38页
   ·基本概念第26-31页
     ·HTTP协议第26-29页
     ·HTML语言第29页
     ·超文本(Hypertext)与WWW第29-30页
     ·WWW的体系结构和信息资源第30-31页
   ·Web信息采集的基本原理第31页
   ·Web信息采集系统的基本组成第31-33页
   ·搜索引擎与Web信息采集第33-36页
     ·搜索引擎的分类第33-34页
     ·搜索引擎的基本结构第34-35页
     ·搜索引擎信息采集面临的挑战第35-36页
   ·本章小结第36-38页
第三章. 基于主题的Web信息采集第38-52页
   ·国内外相关研究进展第38-41页
   ·基于主题的Web信息采集原理第41-43页
     ·采集策略第41-42页
     ·基于主题的Web信息采集系统结构第42-43页
   ·采集的主题问题第43-50页
     ·Web网页文本的特点第43-44页
     ·Web信息的主题目录第44-45页
     ·主题词典和分词处理第45-46页
     ·网页文本主题的识别第46-50页
   ·本章小结第50-52页
第四章. 超链接主题预测算法UTP第52-66页
   ·URL主题相关度的决定因素第52-57页
     ·利用父网页的主题相关度预测URL的主题第53页
     ·利用锚点文本和扩展锚点文本预测URL的主题第53-55页
     ·利用Web链接结构信息预测URL的主题第55-57页
   ·超链接主题预测算法——UTP算法第57-65页
     ·UTP算法的几个相关定义及定理第57-58页
     ·UTP算法中主题相关度的考虑因素第58-60页
     ·UTP算法的实现第60-63页
     ·UTP算法同PageRank与HITS的比较第63-65页
   ·本章小结第65-66页
第五章. 深度Web的领域数据集成第66-82页
   ·Deep Web的发现第66-70页
     ·发现Deep Web第66-68页
     ·Deep Web的输入和输出接口第68-70页
   ·Deep Web信息的提取第70-76页
     ·Deep Web信息提取的DOM实现第70-73页
     ·基于Browser控件的爬虫代理第73-75页
     ·Deep Web信息采集系统的实现架构第75-76页
   ·Deep Web数据的清洗第76-80页
     ·基于WordNet的数据清洗第77-79页
     ·Deep Web的页面消重第79-80页
   ·本章小结第80-82页
第六章. 基于Hadoop的垂直搜索引擎的系统架构及优化第82-102页
   ·垂直搜索引擎的数据采集模块优化第82-89页
     ·并行的Web Crawl第83-84页
     ·保持礼貌原则第84-87页
     ·DNS解析优化第87-88页
     ·避免陷入Spider Trap第88-89页
   ·高性能垂直搜索引擎的系统实现第89-95页
     ·开源搜索引擎系统第89-91页
     ·基于Nutch的垂直搜索引擎特点第91-93页
     ·基于Nutch的垂直搜索改良第93-95页
   ·垂直搜索引擎的查询优化第95-101页
     ·Hadoop的分布式查询第96-97页
     ·用户查询缓存机制第97-99页
     ·查询优化的效果第99-101页
   ·本章小结第101-102页
第七章. Dolphin---一个垂直搜索引擎的实例第102-120页
   ·学术搜索引擎系统的架构和数据第103-107页
     ·系统的功能架构第103-104页
     ·数据定向采集第104-105页
     ·数据的除噪第105-106页
     ·数据的存储和索引第106-107页
   ·查询及结果展示第107-119页
     ·查询结果的展现第107-109页
     ·层次化数据聚类第109-111页
     ·查询结果的外延扩展和排序改进第111-119页
   ·本章小结第119-120页
第八章. 总结和展望第120-122页
   ·本文工作的总结第120-121页
   ·未来工作的展望第121-122页
参考文献第122-130页
致谢第130-131页
攻读博士学位期间发表文章第131-132页

论文共132页,点击 下载论文
上一篇:SOA等级化服务替换理论与机制
下一篇:众核GPU体系结构相关技术研究