摘要 | 第4-5页 |
ABSTRACT | 第5页 |
第一章 绪论 | 第8-10页 |
1.1 项目背景 | 第8页 |
1.2 项目的目的 | 第8-9页 |
1.3 项目意义 | 第9页 |
1.4 项目研究的主要内容 | 第9页 |
1.5 论文结构 | 第9-10页 |
第二章 面向linkedin与academic的爬虫系统分析 | 第10-12页 |
2.1 爬虫系统总体需求 | 第10页 |
2.2 功能规定 | 第10-11页 |
2.3 输入输出要求 | 第11页 |
2.4 本章小结 | 第11-12页 |
第三章 面向linkedin与academic的爬虫系统设计 | 第12-42页 |
3.1 架构设计和模块设计 | 第12页 |
3.1.1 爬虫系统架构图。 | 第12页 |
3.2 系统模块分解 | 第12-13页 |
3.2.1 IP代理服务模块 | 第12-13页 |
3.2.2 登陆服务模块 | 第13页 |
3.2.3 页面解析模块 | 第13页 |
3.2.4 华人标记模块 | 第13页 |
3.2.5 入库实现模块 | 第13页 |
3.3 数据处理流程 | 第13-15页 |
3.3.1 数据处理流程图 | 第13-14页 |
3.3.2 数据处理流程分析 | 第14-15页 |
3.4 系统总体设计 | 第15-20页 |
3.4.1 计算机配置设计(实验配置) | 第15-16页 |
3.4.2 系统模块结构设计 | 第16页 |
3.4.3 代码设计 | 第16-20页 |
3.5 系统采集思路设计 | 第20-38页 |
3.5.1 爬虫系统采集总体思路结构。 | 第20页 |
3.5.2 Profilecrawler(用户页面采集思路具体)。 | 第20-27页 |
3.5.3 Keywordcrawler(关键词采集思路) | 第27-34页 |
3.5.4 Journalcrawler(期刊采集思路) | 第34-36页 |
3.5.5 linkedin账号权限限制信息查看解决方案。 | 第36-38页 |
3.6 数据库设计 | 第38-41页 |
3.6.1 数据库需求分析。 | 第38页 |
3.6.2 数据库概念模型。 | 第38-39页 |
3.6.3 数据库逻辑模型。 | 第39-41页 |
3.7 本章小结 | 第41-42页 |
第四章 linkedin和academic的爬虫详细设计和具体实现 | 第42-53页 |
4.1 代理IP服务模块的详细设计与实现 | 第42-45页 |
4.2 模拟登录插件详细设计与实现 | 第45-48页 |
4.3 华人标记模块详细设计与实现 | 第48-50页 |
4.4 入库模块详细设计与实现 | 第50-51页 |
4.5 其他配置与爬虫启动 | 第51-52页 |
4.5.1 添加常见拼音配置文件。 | 第51页 |
4.5.2 配置插件参数。 | 第51-52页 |
4.5.3 爬虫启动。 | 第52页 |
4.6 本章小结 | 第52-53页 |
第五章 爬虫系统测试 | 第53-54页 |
第六章 总结与展望 | 第54-55页 |
6.1 总结 | 第54页 |
6.2 展望 | 第54-55页 |
参考文献 | 第55-57页 |
致谢 | 第57-58页 |