学术资源中英文分词和分布式存储系统的设计与实现

摘要	第4-5页
ABSTRACT	第5-6页
第一章绪论	第9-12页
1.1 课题背景与意义	第9-10页
1.2 课题主要内容	第10-11页
1.2.1 研究目标	第10页
1.2.2 研究内容	第10-11页
1.3 论文组织结构	第11-12页
第二章中英文分词和分布式存储技术分析	第12-28页
2.1 基于统计的中文分词技术	第12-17页
2.1.1 隐马尔科夫模型	第12-14页
2.1.2 最大熵马尔科夫模型	第14-16页
2.1.3 条件随机场模型	第16-17页
2.2 英文分词技术	第17-18页
2.3 典型的分布式存储系统架构	第18-21页
2.3.1 GFS存储架构	第19页
2.3.2 HBase存储架构	第19-21页
2.3.3 MongoDB存储架构	第21页
2.4 HBASE分布式数据库	第21-27页
2.4.1 HBase概述	第22-24页
2.4.2 HBase工作机制	第24-25页
2.4.3 HBase与其他数据库对比	第25-27页
2.5 本章小结	第27-28页
第三章学术资源中英文分词与分布式存储系统方案设计	第28-36页
3.1 学术资源中英文分词和分布式存储需求分析	第28-30页
3.1.1 中英文分词需求分析	第28-29页
3.1.2 分布式数据存储需求分析	第29-30页
3.2 总体方案设计	第30-32页
3.3 学术资源数据预处理方案设计	第32-33页
3.4 学术资源中英文分词方案设计	第33-34页
3.5 学术资源分布式数据存储方案设计	第34-35页
3.6 本章小结	第35-36页
第四章学术资源中英文分词与分布式存储系统的实现	第36-60页
4.1 数据读取模块实现	第36-37页
4.2 数据预处理模块实现	第37页
4.3 中英文分词模块实现	第37-46页
4.3.1 基于CRF++的中文分词实现	第37-40页
4.3.2 基于斯坦福分词器的中文分词封装	第40-42页
4.3.3 基于Lucene的英文分词封装	第42-44页
4.3.4 中英文分词多线程封装实现	第44-46页
4.4 分布式数据存储模块实现	第46-59页
4.4.1 中英文学术资源表结构设计	第46-52页
4.4.2 HBase环境搭建	第52-54页
4.4.3 分布式数据存储封装实现	第54-59页
4.5 本章小结	第59-60页
第五章分词和存储系统测试及结果分析	第60-66页
5.1 测试环境及测试目标	第60-61页
5.1.1 测试环境	第60-61页
5.1.2 测试目标	第61页
5.2 中英文分词测试与结果分析	第61-63页
5.2.1 中文分词功能测试	第61-62页
5.2.2 中文分词性能测试	第62-63页
5.2.3 多线程分词性能测试	第63页
5.3 分布式数据存储测试与结果分析	第63-65页
5.3.1 分布式数据存储功能测试	第63-64页
5.3.2 数据插入性能测试	第64页
5.3.3 数据查询性能测试	第64-65页
5.4 本章小结	第65-66页
第六章总结与展望	第66-68页
6.1 工作总结	第66-67页
6.2 工作展望	第67-68页
参考文献	第68-70页
致谢	第70页