首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

面向时间敏感内容的垂直搜索引擎的设计与实现

摘要第4-6页
ABSTRACT第6-7页
目录第8-10页
第一章 概论第10-15页
    1.1 研究意义第10页
    1.2 国内外研究现状和发展趋势第10-12页
        1.2.1 通用搜索引擎的研究现状第10-11页
        1.2.2 垂直搜索引擎的研究现状第11-12页
    1.3 项目背景第12-13页
    1.4 本文工作第13页
    1.5 论文结构第13-15页
第二章 垂直搜索引擎及其关键技术第15-26页
    2.1 垂直搜索引擎架构与特点第15-17页
    2.2 垂直搜索引擎的关键技术第17-26页
        2.2.1 数据抓取与Heritrix第17-18页
        2.2.2 文本结构化抽取第18-19页
        2.2.3 中文分词第19-21页
        2.2.4 索引检索与Lucene第21-23页
        2.2.5 网页排序算法第23页
        2.2.6 Ajax技术第23-26页
第三章 需求分析及总体设计第26-33页
    3.1 需求分析第26页
    3.2 时间敏感内容分析第26-29页
    3.3 系统总体设计第29-31页
    3.4 系统功能目标第31-33页
第四章 系统详细设计与实现第33-55页
    4.1 数据抓取与爬虫优化第33-41页
        4.1.1 数据抓取子系统架构第34页
        4.1.2 主要工作流程第34-36页
        4.1.3 数据结构第36-37页
        4.1.4 增量抓取第37-38页
        4.1.5 线程间的负载均衡第38页
        4.1.6 基于Hbase的分布式存储第38-39页
        4.1.7 其它关键特性第39-41页
    4.2 索引数据的增量更新第41-48页
        4.2.1 时间敏感内容抽取第41-42页
        4.2.2 抽取结构元数据结构第42-43页
        4.2.3 索引创建第43-45页
        4.2.4 索引压缩与分段索引第45-46页
        4.2.5 索引增量更新及缓存第46-48页
    4.3 搜索结果排序及相似结果聚合第48-55页
        4.3.1 向量空间模型与TF-IDF第48-49页
        4.3.2 主题特征词提取模块第49-50页
        4.3.3 K-means聚类算法及改进第50-51页
        4.3.4 搜索结果自动聚类的实现第51-52页
        4.3.5 搜索结果的排序第52-53页
        4.3.6 搜索返回结果及其缓存第53-55页
第五章 测试结果与系统展示第55-65页
    5.1 测试环境第55-56页
    5.2 数据抓取第56-58页
    5.3 索引建立与更新第58-61页
    5.4 搜索流程测试第61-65页
        5.4.1 基本搜索第61-62页
        5.4.2 高级搜索第62-63页
        5.4.3 搜索结果展示第63-65页
第六章 总结与展望第65-68页
    6.1 总结第65-66页
    6.2 展望第66-68页
参考文献第68-70页
致谢第70-71页
攻读硕士学位期间已发表的论文第71页

论文共71页,点击 下载论文
上一篇:俄罗斯参与国际石油合作的立法研究
下一篇:β-1,3-葡聚糖酶在毕赤酵母中的表达