摘要 | 第8-9页 |
ABSTRACT | 第9-10页 |
第一章 绪论 | 第11-19页 |
1.1 课题背景与研究意义 | 第11-12页 |
1.2 国内外研究现状 | 第12-15页 |
1.2.1 爬虫研究现状 | 第12-13页 |
1.2.2 时间信息的抽取与规范化 | 第13-14页 |
1.2.3 空间信息的抽取与规范化 | 第14-15页 |
1.2.4 时空数据模型 | 第15页 |
1.3 本文的研究内容和组织结构 | 第15-19页 |
1.3.1 本文研究内容 | 第15-16页 |
1.3.2 论文组织结构 | 第16-19页 |
第二章 互联网新闻时空信息的抽取与规范化 | 第19-45页 |
2.1 互联网新闻时空信息描述特点 | 第19-23页 |
2.1.1 互联网新闻时间信息描述特点 | 第19-22页 |
2.1.2 互联网新闻空间信息描述特点 | 第22-23页 |
2.2 互联网新闻时空信息标注体系 | 第23-28页 |
2.2.1 时间信息的标注 | 第23-26页 |
2.2.2 空间信息的标注 | 第26-28页 |
2.3 互联网新闻时空信息的抽取与规范化方法 | 第28-39页 |
2.3.1 时空知识库的构建 | 第28-35页 |
2.3.2 时间信息的抽取与规范化流程 | 第35-37页 |
2.3.3 空间信息的抽取与规范化流程 | 第37-38页 |
2.3.4 基于Spark的时空信息抽取与规范化 | 第38-39页 |
2.4 实验与分析 | 第39-43页 |
2.4.1 时间信息提取效果 | 第41页 |
2.4.2 时空信息抽取与规范化性能 | 第41-43页 |
2.5 本章小结 | 第43-45页 |
第三章 面向互联网新闻时空信息的数据组织 | 第45-59页 |
3.1 基于Geohash编码的空间位置信息表示方法 | 第45-52页 |
3.1.1 对空间数据进行Geohash编码 | 第45-50页 |
3.1.2 利用Geohash编码对数据进行检索 | 第50-52页 |
3.2 面向互联网新闻时空信息的数据组织模型 | 第52-53页 |
3.3 实验与分析 | 第53-56页 |
3.4 本章小结 | 第56-59页 |
第四章 互联网新闻时空信息分析原型系统的设计与实现 | 第59-69页 |
4.1 系统架构 | 第59-60页 |
4.2 互联网新闻数据获取 | 第60-64页 |
4.2.1 新闻爬虫的特点 | 第60-61页 |
4.2.2 互联网新闻获取模块 | 第61-64页 |
4.3 互联网新闻时空分析 | 第64-68页 |
4.3.1 基于时空特性的新闻推荐 | 第64-65页 |
4.3.2 关键词热度分析 | 第65-66页 |
4.3.3 事件时空发展分析 | 第66-68页 |
4.4 本章小结 | 第68-69页 |
第五章 总结与展望 | 第69-71页 |
5.1 主要研究成果 | 第69页 |
5.2 工作展望 | 第69-71页 |
致谢 | 第71-73页 |
参考文献 | 第73-77页 |
作者在学期间取得的学术成果 | 第77-79页 |
作者在学期间参加的与本课题相关的科研项目 | 第79页 |