首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于个人微博特征的Timeline生成研究

摘要第3-4页
Abstract第4-5页
1 绪论第9-16页
    1.1 个人微博事件提取的研究背景和意义第9-13页
        1.1.1 个人微博发展过程第9-10页
        1.1.2 个人微博的特点和特征第10-12页
        1.1.3 个人微博事件提取第12-13页
    1.2 国内外研究现状第13-14页
    1.3 个人微博事件提取的主要研究的内容第14-15页
    1.4 本章小结第15-16页
2 微博信息提取技术第16-27页
    2.1 数据获取技术第16页
        2.1.1 新浪微博API第16页
        2.1.2 第三方爬虫软件第16页
    2.2 文本特征选择方法第16-17页
        2.2.1 基于文档频率的特征提取方法第16-17页
    2.3 特征权重计算方法第17-20页
    2.4 博文相似度技术第20-23页
        2.4.1 距离函数第20-21页
        2.4.2 布尔属性和名词性属性第21-22页
        2.4.3 文本文档第22页
        2.4.4 VSM 空间矩阵第22页
        2.4.5 相同词匹配相似度第22页
        2.4.6 语义相似度第22-23页
    2.5 聚类算法主要技术第23-26页
        2.5.1 聚类算法的简介第23-24页
        2.5.2 聚类分析的要求第24-25页
        2.5.3 聚类算法的分类第25-26页
    2.6 本章小结第26-27页
3 基于个人微博特征的Timeline 生成研究第27-37页
    3.1 数据获取第28页
    3.2 预处理第28-29页
    3.3 改进的TF-IDF第29-32页
        3.3.1 传统TF-IDF 缺点第29页
        3.3.2 改进的TF-IDF第29-32页
    3.4 提取关键词第32页
    3.5 综合相似度计算第32-34页
        3.5.1 标签相似度第33页
        3.5.2 Url 对应的标题相似度第33页
        3.5.3 文本相似度第33-34页
        3.5.4 综合相似度第34页
    3.6 聚类事件提取第34-36页
        3.6.1 在聚类中k-means 算法对于微博聚类缺点第34-35页
        3.6.2 改进k-means 聚类算法的详细过程第35页
        3.6.3 k-means 聚类中心点选择原则第35-36页
        3.6.4 k-means 聚类过程第36页
    3.7 本章小结第36-37页
4 实验及结果比对第37-47页
    4.1 数据获取第37-38页
    4.2 数据的预处理过程第38-39页
    4.3 参数设置对比实验第39-41页
        4.3.1 微博影响力度公式中参数α1,β1,γ1 对关键词提取的影响第39-40页
        4.3.2 综合相似度计算公式中参数α,β,γ对微博事件提取最终结果的影响第40-41页
    4.4 TF-IDF 改进前后实验比对第41-45页
    4.5 k-means 算法改进前后实验对比第45-46页
    4.6 执行改进k-means 算法得出事件提取结果第46页
    4.7 本章小结第46-47页
5 总结和展望第47-48页
参考文献第48-52页
在校研究成果第52-53页
致谢第53-54页

论文共54页,点击 下载论文
上一篇:解读美国网络恶搞
下一篇:违法所得没收程序研究