首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

新浪微博的数据采集和推荐方案研究

摘要第3-4页
Abstract第4页
1 绪论第8-11页
    1.1 研究背景和意义第8-9页
    1.2 本文研究内容第9-10页
    1.3 本文组织结构第10-11页
2 新浪微博数据采集方案第11-20页
    2.1 基于API的采集方案第11-13页
        2.1.1 Outh2授权认证第11-12页
        2.1.2 API限制第12页
        2.1.3 接入API第12-13页
    2.2 基于网络爬虫的采集方案第13-16页
        2.2.1 新浪网站的模拟登陆过程第14-15页
        2.2.2 网络爬虫的程序架构设计第15-16页
    2.3 基于API和网络爬虫的融合策略第16-17页
    2.4 实验设计与结果分析第17-19页
        2.4.1 实验设计第17页
        2.4.2 稳定性比较第17-18页
        2.4.3 抓取速率比较第18页
        2.4.4 数据完整性第18-19页
        2.4.5 融合抓取策略的比较第19页
    2.5 本章小结第19-20页
3 推荐相关技术综述第20-34页
    3.1 中文分词第20-21页
        3.1.1 中文分词介绍第20页
        3.1.2 中文分词算法第20-21页
        3.1.3 汉语分词工具第21页
    3.2 推荐系统第21-27页
        3.2.1 基于人口统计学的推荐第23页
        3.2.2 基于内容的推荐第23-24页
        3.2.3 基于协同过滤的推荐第24-26页
        3.2.4 相似性计算第26-27页
    3.3 聚类技术第27-29页
        3.3.1 基于划分的聚类算法第27-28页
        3.3.2 k-means算法第28页
        3.3.3 k-medoids算法第28-29页
    3.4 文本相似性判断第29-33页
        3.4.1 基于向量的TF-IDF方法第29页
        3.4.2 隐性语义索引法第29-30页
        3.4.3 基于汉明距离相似度计算方法第30页
        3.4.4 基于语义的相似度计算方法第30页
        3.4.5 基于模型工具计算相似度的方法第30-33页
    3.5 本章小结第33-34页
4 用户主题模型的聚类算法研究第34-43页
    4.1 基于用户的主题模型建模第34-36页
        4.1.1 用户主题模型定义第34页
        4.1.2 用户主题建模过程第34-36页
    4.2 基于用户主题词聚类分析第36-40页
        4.2.1 用户聚类操作数据源提取第36-37页
        4.2.2 k-means聚类操作算法实现第37-40页
    4.3 实验设计与结果分析第40-42页
        4.3.1 实验设计第40页
        4.3.2 实验结果分析第40-42页
    4.4 本章小结第42-43页
5 微博文本的相似性算法研究第43-52页
    5.1 文本特征第43-48页
        5.1.1 基于word2vec工具的微博相似性计算第43-48页
    5.2 社交特征第48页
    5.3 实验设计和结果分析第48-51页
        5.3.1 实验设计和评价指标第48-49页
        5.3.2 实验结果分析第49-51页
    5.4 本章小结第51-52页
6 微博推荐系统设计第52-58页
    6.1 Express框架第52-53页
    6.2 微博推荐系统架构设计第53-54页
    6.3 系统基本功能设计第54-56页
    6.4 数据库设计第56-57页
    6.5 微博推荐功能实现第57页
    6.6 本章小结第57-58页
7 总结与展望第58-60页
    7.1 总结第58页
    7.2 展望第58-60页
致谢第60-61页
参考文献第61-65页
附录第65页

论文共65页,点击 下载论文
上一篇:臭椿苦酮抗肝癌活性和分子机制研究
下一篇:等熵Euler方程组Chaplygin气体模型初值问题弱解存在性的研究