新浪微博的数据采集和推荐方案研究

摘要	第3-4页
Abstract	第4页
1 绪论	第8-11页
1.1 研究背景和意义	第8-9页
1.2 本文研究内容	第9-10页
1.3 本文组织结构	第10-11页
2 新浪微博数据采集方案	第11-20页
2.1 基于API的采集方案	第11-13页
2.1.1 Outh2授权认证	第11-12页
2.1.2 API限制	第12页
2.1.3 接入API	第12-13页
2.2 基于网络爬虫的采集方案	第13-16页
2.2.1 新浪网站的模拟登陆过程	第14-15页
2.2.2 网络爬虫的程序架构设计	第15-16页
2.3 基于API和网络爬虫的融合策略	第16-17页
2.4 实验设计与结果分析	第17-19页
2.4.1 实验设计	第17页
2.4.2 稳定性比较	第17-18页
2.4.3 抓取速率比较	第18页
2.4.4 数据完整性	第18-19页
2.4.5 融合抓取策略的比较	第19页
2.5 本章小结	第19-20页
3 推荐相关技术综述	第20-34页
3.1 中文分词	第20-21页
3.1.1 中文分词介绍	第20页
3.1.2 中文分词算法	第20-21页
3.1.3 汉语分词工具	第21页
3.2 推荐系统	第21-27页
3.2.1 基于人口统计学的推荐	第23页
3.2.2 基于内容的推荐	第23-24页
3.2.3 基于协同过滤的推荐	第24-26页
3.2.4 相似性计算	第26-27页
3.3 聚类技术	第27-29页
3.3.1 基于划分的聚类算法	第27-28页
3.3.2 k-means算法	第28页
3.3.3 k-medoids算法	第28-29页
3.4 文本相似性判断	第29-33页
3.4.1 基于向量的TF-IDF方法	第29页
3.4.2 隐性语义索引法	第29-30页
3.4.3 基于汉明距离相似度计算方法	第30页
3.4.4 基于语义的相似度计算方法	第30页
3.4.5 基于模型工具计算相似度的方法	第30-33页
3.5 本章小结	第33-34页
4 用户主题模型的聚类算法研究	第34-43页
4.1 基于用户的主题模型建模	第34-36页
4.1.1 用户主题模型定义	第34页
4.1.2 用户主题建模过程	第34-36页
4.2 基于用户主题词聚类分析	第36-40页
4.2.1 用户聚类操作数据源提取	第36-37页
4.2.2 k-means聚类操作算法实现	第37-40页
4.3 实验设计与结果分析	第40-42页
4.3.1 实验设计	第40页
4.3.2 实验结果分析	第40-42页
4.4 本章小结	第42-43页
5 微博文本的相似性算法研究	第43-52页
5.1 文本特征	第43-48页
5.1.1 基于word2vec工具的微博相似性计算	第43-48页
5.2 社交特征	第48页
5.3 实验设计和结果分析	第48-51页
5.3.1 实验设计和评价指标	第48-49页
5.3.2 实验结果分析	第49-51页
5.4 本章小结	第51-52页
6 微博推荐系统设计	第52-58页
6.1 Express框架	第52-53页
6.2 微博推荐系统架构设计	第53-54页
6.3 系统基本功能设计	第54-56页
6.4 数据库设计	第56-57页
6.5 微博推荐功能实现	第57页
6.6 本章小结	第57-58页
7 总结与展望	第58-60页
7.1 总结	第58页
7.2 展望	第58-60页
致谢	第60-61页
参考文献	第61-65页
附录	第65页