基于大规模数据的企业地址识别系统
摘要 | 第4-5页 |
英文摘要 | 第5-13页 |
第一章 绪论 | 第13-21页 |
1.1 研究背景 | 第13-16页 |
1.1.1 分布式技术概述 | 第13-14页 |
1.1.2 大数据处理技术概述 | 第14页 |
1.1.3 中文地址概述 | 第14-15页 |
1.1.4 深度学习词向量技术概述 | 第15-16页 |
1.2 国内外研究现状及存在问题 | 第16-17页 |
1.3 研究内容及研究意义 | 第17-18页 |
1.4 论文的组织架构 | 第18-19页 |
1.5 小结 | 第19-21页 |
第二章 分布式、大数据处理与中文地址识别相关研究 | 第21-35页 |
2.1 分库分表技术 | 第21页 |
2.2 大数据技术 | 第21-28页 |
2.2.1 爬虫技术 | 第22-23页 |
2.2.2 日志收集系统Flume NG | 第23-24页 |
2.2.3 消息队列Kafka | 第24-26页 |
2.2.4 流计算Spark Streaming | 第26-28页 |
2.3 中文地址研究 | 第28-33页 |
2.3.1 地址标准化 | 第28-30页 |
2.3.2 中文地址分词 | 第30-31页 |
2.3.3 基于词典和NPL的中文地址匹配 | 第31-33页 |
2.4 小结 | 第33-35页 |
第三章 基于大规模数据的中文地址识别系统搭建 | 第35-61页 |
3.1 系统架构设计 | 第35页 |
3.2 分库分表中间件设计 | 第35-41页 |
3.2.1 分库分表中间件架构流程 | 第36-40页 |
3.2.2 性能测试及结果分析 | 第40-41页 |
3.3 大数据处理模块 | 第41-50页 |
3.3.1 地址爬虫获取设计 | 第41-46页 |
3.3.2 大数据处理模块设计 | 第46-50页 |
3.4 中文地址识别模块 | 第50-59页 |
3.4.1 基于词典库的行政区域精准匹配 | 第51-53页 |
3.4.2 基于规则树的非行政区划模糊匹配 | 第53-55页 |
3.4.3 基于词向量的地址要素匹配设计 | 第55-59页 |
3.5 小结 | 第59-61页 |
第四章 实验测试和结果分析 | 第61-73页 |
4.1 实验环境 | 第61-70页 |
4.1.1 硬件参数 | 第61页 |
4.1.2 软件参数 | 第61-62页 |
4.1.3 实验平台搭建 | 第62-70页 |
4.2 实验过程及结果分析 | 第70-72页 |
4.3 小结 | 第72-73页 |
第五章 总结 | 第73-75页 |
5.1 总结 | 第73页 |
5.2 展望 | 第73-75页 |
参考文献 | 第75-77页 |
硕士期间参与的科研项目及发表论文 | 第77-79页 |
致谢 | 第79页 |