首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

学术资源中英文分词和分布式存储系统的设计与实现

摘要第4-5页
ABSTRACT第5-6页
第一章 绪论第9-12页
    1.1 课题背景与意义第9-10页
    1.2 课题主要内容第10-11页
        1.2.1 研究目标第10页
        1.2.2 研究内容第10-11页
    1.3 论文组织结构第11-12页
第二章 中英文分词和分布式存储技术分析第12-28页
    2.1 基于统计的中文分词技术第12-17页
        2.1.1 隐马尔科夫模型第12-14页
        2.1.2 最大熵马尔科夫模型第14-16页
        2.1.3 条件随机场模型第16-17页
    2.2 英文分词技术第17-18页
    2.3 典型的分布式存储系统架构第18-21页
        2.3.1 GFS存储架构第19页
        2.3.2 HBase存储架构第19-21页
        2.3.3 MongoDB存储架构第21页
    2.4 HBASE分布式数据库第21-27页
        2.4.1 HBase概述第22-24页
        2.4.2 HBase工作机制第24-25页
        2.4.3 HBase与其他数据库对比第25-27页
    2.5 本章小结第27-28页
第三章 学术资源中英文分词与分布式存储系统方案设计第28-36页
    3.1 学术资源中英文分词和分布式存储需求分析第28-30页
        3.1.1 中英文分词需求分析第28-29页
        3.1.2 分布式数据存储需求分析第29-30页
    3.2 总体方案设计第30-32页
    3.3 学术资源数据预处理方案设计第32-33页
    3.4 学术资源中英文分词方案设计第33-34页
    3.5 学术资源分布式数据存储方案设计第34-35页
    3.6 本章小结第35-36页
第四章 学术资源中英文分词与分布式存储系统的实现第36-60页
    4.1 数据读取模块实现第36-37页
    4.2 数据预处理模块实现第37页
    4.3 中英文分词模块实现第37-46页
        4.3.1 基于CRF++的中文分词实现第37-40页
        4.3.2 基于斯坦福分词器的中文分词封装第40-42页
        4.3.3 基于Lucene的英文分词封装第42-44页
        4.3.4 中英文分词多线程封装实现第44-46页
    4.4 分布式数据存储模块实现第46-59页
        4.4.1 中英文学术资源表结构设计第46-52页
        4.4.2 HBase环境搭建第52-54页
        4.4.3 分布式数据存储封装实现第54-59页
    4.5 本章小结第59-60页
第五章 分词和存储系统测试及结果分析第60-66页
    5.1 测试环境及测试目标第60-61页
        5.1.1 测试环境第60-61页
        5.1.2 测试目标第61页
    5.2 中英文分词测试与结果分析第61-63页
        5.2.1 中文分词功能测试第61-62页
        5.2.2 中文分词性能测试第62-63页
        5.2.3 多线程分词性能测试第63页
    5.3 分布式数据存储测试与结果分析第63-65页
        5.3.1 分布式数据存储功能测试第63-64页
        5.3.2 数据插入性能测试第64页
        5.3.3 数据查询性能测试第64-65页
    5.4 本章小结第65-66页
第六章 总结与展望第66-68页
    6.1 工作总结第66-67页
    6.2 工作展望第67-68页
参考文献第68-70页
致谢第70页

论文共70页,点击 下载论文
上一篇:安卓平台下基于相似度的恶意软件特征提取与检测研究
下一篇:网络社区数据存储及检索优化技术研究