首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于K-means的微博短文本聚类算法研究

摘要第4-5页
ABSTRACT第5页
1 绪论第10-13页
    1.1 研究背景第10-11页
    1.2 研究意义第11-12页
    1.3 研究内容第12页
    1.4 论文结构第12-13页
2 国内外研究现状第13-23页
    2.1 微博相关研究综述第13-15页
        2.1.1 微博用户分析研究第13-14页
        2.1.2 微博内容的分析研究第14-15页
        2.1.3 微博应用的研究第15页
    2.2 微博信息抓取技术研究综述第15-18页
        2.2.1 微博公开平台的信息抓取技术第15-17页
        2.2.2 数据源镜像的信息抓取技术第17页
        2.2.3 网络数据流的信息抓取技术第17-18页
        2.2.4 网络爬虫的信息抓取技术第18页
    2.3 短文本相关的聚类算法研究综述第18-22页
        2.3.1 基于划分的方法(PM)第19-20页
        2.3.2 基于层次的方法(HM)第20-21页
        2.3.3 基于密度的方法(DM)第21-22页
        2.3.4 基于网格的方法(GM)第22页
        2.3.5 基于模型的方法(MM)第22页
    2.4 本章小结第22-23页
3 基于微博信息的关键词库爬虫策略第23-36页
    3.1 样本选取策略第23-24页
    3.2 抓取词库样本第24-25页
    3.3 样本数据预处理第25-29页
        3.3.1 中文分词第26-27页
        3.3.2 停用词(StopWords)的处理第27-29页
    3.4 特征词提取第29-31页
    3.5 构建关键词库第31-32页
    3.6 实验设计与结果第32-35页
        3.6.1 词库样本获取模块第32-33页
        3.6.2 样本数据预处理模块第33页
        3.6.3 特征提取模块第33-34页
        3.6.4 特征词合并模块第34-35页
    3.7 本章小结第35-36页
4 基于微博信息的主题网络爬虫策略第36-45页
    4.1 主题网络爬虫策略简介第36-39页
    4.2 基于微博信息的主题爬虫策略第39-41页
        4.2.1 基于微博信息的主题爬虫策略的设计第39页
        4.2.2 基于微博信息的主题爬虫策略的实现第39-41页
    4.3 实验度量第41-42页
    4.4 实验结果与分析第42-44页
    4.5 本章小结第44-45页
5 基于K-means的短文本信息聚类算法研究第45-56页
    5.1 文本的向量空间模型第45-47页
        5.1.1 特征项第45页
        5.1.2 特征项的权重计算方法第45-47页
        5.1.3 向量空间模型第47页
    5.2 文本相似度计算第47-48页
    5.3 实验度量第48-49页
    5.4 实验流程第49-50页
    5.5 K-means聚类算法第50-53页
        5.5.1 传统的K-means算法第50-51页
        5.5.2 增量聚类算法第51页
        5.5.3 改进的K-means算法第51-53页
    5.6 实验结果与分析第53-55页
        5.6.1 数据采集第53-54页
        5.6.2 聚类结果与讨论第54-55页
    5.7 本章小结第55-56页
6 总结与展望第56-57页
参考文献第57-61页
硕士期间发表的学术论文及研究成果第61-62页
    发表的学术论文第61页
    参与的科研项目第61-62页
致谢第62页

论文共62页,点击 下载论文
上一篇:因素空间理论在文本挖掘中的应用
下一篇:基于WordNet英汉蒙三语领域本体的构建方法研究