基于大规模数据的企业地址识别系统

摘要	第4-5页
英文摘要	第5-13页
第一章绪论	第13-21页
1.1 研究背景	第13-16页
1.1.1 分布式技术概述	第13-14页
1.1.2 大数据处理技术概述	第14页
1.1.3 中文地址概述	第14-15页
1.1.4 深度学习词向量技术概述	第15-16页
1.2 国内外研究现状及存在问题	第16-17页
1.3 研究内容及研究意义	第17-18页
1.4 论文的组织架构	第18-19页
1.5 小结	第19-21页
第二章分布式、大数据处理与中文地址识别相关研究	第21-35页
2.1 分库分表技术	第21页
2.2 大数据技术	第21-28页
2.2.1 爬虫技术	第22-23页
2.2.2 日志收集系统Flume NG	第23-24页
2.2.3 消息队列Kafka	第24-26页
2.2.4 流计算Spark Streaming	第26-28页
2.3 中文地址研究	第28-33页
2.3.1 地址标准化	第28-30页
2.3.2 中文地址分词	第30-31页
2.3.3 基于词典和NPL的中文地址匹配	第31-33页
2.4 小结	第33-35页
第三章基于大规模数据的中文地址识别系统搭建	第35-61页
3.1 系统架构设计	第35页
3.2 分库分表中间件设计	第35-41页
3.2.1 分库分表中间件架构流程	第36-40页
3.2.2 性能测试及结果分析	第40-41页
3.3 大数据处理模块	第41-50页
3.3.1 地址爬虫获取设计	第41-46页
3.3.2 大数据处理模块设计	第46-50页
3.4 中文地址识别模块	第50-59页
3.4.1 基于词典库的行政区域精准匹配	第51-53页
3.4.2 基于规则树的非行政区划模糊匹配	第53-55页
3.4.3 基于词向量的地址要素匹配设计	第55-59页
3.5 小结	第59-61页
第四章实验测试和结果分析	第61-73页
4.1 实验环境	第61-70页
4.1.1 硬件参数	第61页
4.1.2 软件参数	第61-62页
4.1.3 实验平台搭建	第62-70页
4.2 实验过程及结果分析	第70-72页
4.3 小结	第72-73页
第五章总结	第73-75页
5.1 总结	第73页
5.2 展望	第73-75页
参考文献	第75-77页
硕士期间参与的科研项目及发表论文	第77-79页
致谢	第79页