首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

互联网中实时信息获取与索引技术研究

摘要第4-5页
ABSTRACT第5-6页
第一章 绪论第10-16页
    1.1 研究背景及意义第10页
    1.2 传统搜索引擎发展史第10-11页
    1.3 国内外实时搜索研究现状第11-14页
    1.4 本课题研究的主要内容第14-15页
    1.5 本文组织结构第15-16页
第二章 信息获取技术和索引相关理论研究第16-26页
    2.1 实时搜索引擎基本理论与研究第16-19页
        2.1.1 传统搜索引擎工作原理第16-18页
        2.1.2 传统搜索引擎的不足第18-19页
    2.2 互联网信息获取技术研究第19-22页
        2.2.1 网络爬虫定义及分类第19-20页
        2.2.2 网络爬虫工作流程第20-21页
        2.2.3 网络爬虫抓取策略第21-22页
        2.2.4 用于获取实时信息的网络爬虫第22页
    2.3 索引技术研究第22-24页
        2.3.1 倒排索引技术研究第23页
        2.3.2 索引更新策略研究第23-24页
        2.3.3 用于索引实时信息的索引技术第24页
    2.4 本章小结第24-26页
第三章 基于Heritrix的实时信息获取技术第26-40页
    3.1 Heritrix框架及技术研究第26-30页
        3.1.1 Heritrix爬虫通用框架第26-28页
        3.1.2 Heritrix功能解析第28-30页
    3.2 基于Heritrix的实时信息获取系统第30-34页
        3.2.1 定制Heritrix配置文件第30-32页
        3.2.2 新闻类实时信息页面的特征第32-33页
        3.2.3 使用Heritrix获取实时信息的方法第33-34页
    3.3 实时信息获取系统的实现与运行结果第34-37页
        3.3.1 用于获取实时信息的Heritrix的运行结果第34-37页
        3.3.2 实验结果分析第37页
    3.4 本章小结第37-40页
第四章 基于Lucene的实时信息索引技术第40-60页
    4.1 Lucene框架及技术研究第40-43页
        4.1.1 Lucene索引与检索框架第40-41页
        4.1.2 Lucene功能解析第41-43页
    4.2 Lucene索引与检索机制研究第43-45页
        4.2.1 Lucene索引的逻辑结构第43-44页
        4.2.2 Lucene索引流程第44-45页
        4.2.3 Lucene检索流程第45页
        4.2.4 Lucene检索排序算法第45页
    4.3 基于Lucene的实时信息索引及检索系统第45-56页
        4.3.1 使用IKAnalyzer分词器第45-46页
        4.3.2 定制Lucene的索引过程第46-52页
        4.3.3 优化Lucene索引过程第52-53页
        4.3.4 定制Lucene检索过程第53-55页
        4.3.5 定制Lucene检索结果的排序第55-56页
    4.4 实时信息索引与检索系统的应用与运行结果第56-59页
        4.4.1 用于实时索引与检索的Lucene的运行结果第56-58页
        4.4.2 索引过程的优化第58-59页
        4.4.3 实验结果分析第59页
    4.5 本章小结第59-60页
第五章 实时信息获取与索引系统的设计与实现第60-76页
    5.1 实时搜索系统的架构设计第60-63页
        5.1.1 J2EE平台及其相关技术第60-62页
        5.1.2 实时搜索系统框架设计第62-63页
    5.2 实时搜索系统中网络爬虫调度策略设计第63-64页
        5.2.1 基于时间的网络爬虫调度策略第63-64页
        5.2.2 基于用户查询行为的网络爬虫调度策略第64页
    5.3 实时搜索系统的实现方法第64-72页
        5.3.1 前端交互界面的实现方法第64-66页
        5.3.2 Servlet的使用与部署第66-67页
        5.3.3 检索器处理检索请求的实现方法第67-68页
        5.3.4 基于时间的网络爬虫调度策略的实现第68-70页
        5.3.5 基于用户查询行为的网络爬虫调度策略的实现第70-72页
    5.4 实时信息获取与索引系统的应用与运行结果第72-74页
        5.4.1 实时搜索引擎主界面第72页
        5.4.2 实时信息获取与索引过程第72-73页
        5.4.3 实时搜索引擎检索结果第73页
        5.4.4 实验结果分析第73-74页
    5.5 本章小结第74-76页
第六章 总结与展望第76-78页
    6.1 研究工作总结第76-77页
    6.2 工作展望第77-78页
参考文献第78-80页
致谢第80-82页
攻读硕士期间发表论文第82页

论文共82页,点击 下载论文
上一篇:中美档案学硕士研究生教育的比较研究
下一篇:南京青奥会志愿者项目管理研究