基于Hadoop的分布式全文检索及相关技术研究

摘要	第1-6页
ABSTRACT	第6-8页
目录	第8-11页
表格	第11-12页
插图	第12-14页
第一章绪论	第14-22页
·研究背景	第14-18页
·国内外研究状况	第18-20页
·研究内容	第20-21页
·章节安排	第21-22页
第二章相关技术综述	第22-38页
·引言	第22页
·全文检索相关技术	第22-29页
·全文检索的基本概念	第22-25页
·索引结构	第25-26页
·检索模型	第26-28页
·中文分词	第28-29页
·Hadoop分布式计算平台	第29-34页
·MapReduce计算模型	第30-32页
·HDFS分布式文件系统	第32-34页
·文件预处理相关概念与技术	第34-37页
·文件类型识别技术	第34-35页
·字符编码的基本概念	第35-37页
·本章小结	第37-38页
第三章基于Hadoop的分布式全文检索系统设计与实现	第38-52页
·引言	第38-39页
·总体设计方案	第39-40页
·数据接收前端	第40-41页
·索引模块	第41-44页
·输入格式	第42-43页
·Map过程	第43-44页
·Reduce过程	第44页
·搜索模块	第44-46页
·索引分发与管理	第44-45页
·搜索接口	第45-46页
·实验及结果分析	第46-51页
·实验平台搭建	第46-50页
·实验及结果分析	第50-51页
·本章小结	第51-52页
第四章文件预处理	第52-68页
·引言	第52页
·文件类型识别	第52-55页
·文件类型识别方法	第52-54页
·文件类型的表示	第54-55页
·字符编码识别	第55-57页
·字符编码识别方法	第55-57页
·文本抽取	第57-61页
·插件机制	第57-59页
·多进程与任务调度	第59-61页
·字符编码转换	第61-62页
·测试及结果分析	第62-66页
·本章小结	第66-68页
第五章总结与展望	第68-70页
·本文工作总结	第68-69页
·研究展望	第69-70页
参考文献	第70-74页
致谢	第74-76页
在读期间发表的学术论文与取得的研究成果	第76-77页