首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于微博数据的微博用户性别判断研究

摘要第5-6页
Abstract第6-7页
第一章 绪论第10-15页
    1.1 研究背景第10-11页
    1.2 研究目的和意义第11-12页
    1.3 国内外研究现状第12-14页
        1.3.1 微博内容挖掘研究现状第12-13页
        1.3.2 微博用户关系挖掘研究现状第13-14页
    1.4 本文研究内容与结构第14-15页
第二章 相关研究技术第15-26页
    2.1 基本分类算法第15-17页
        2.1.1 朴素贝叶斯分类器第15-16页
        2.1.2 决策树分类器第16页
        2.1.3 κ近邻分类器第16-17页
    2.2 数据表示模型第17-18页
    2.3 汉语分词方法第18-22页
        2.3.1 基于规则的分词方法第19-21页
        2.3.2 基于统计模型的分词方法第21-22页
    2.4 分类算法评价标准第22-25页
        2.4.1 正确率p、召回率r和F值第22-23页
        2.4.2 微平均和宏平均第23-25页
    2.5 本章小结第25-26页
第三章 海量微博数据自动获取方法研究第26-38页
    3.1 API参数说明第26-30页
        3.1.1 微博内容下载参数第26-28页
        3.1.2 个人资料下载参数第28-30页
    3.2 海量微博数据下载第30-35页
        3.2.1 海量微博下载的难点第30页
        3.2.2 用户名自动发现算法第30-31页
        3.2.3 海量微博数据下载算法第31-33页
        3.2.4 用户个人资料下载算法第33-35页
    3.3 数据抽取第35-36页
        3.3.1 数据抽取方法第35页
        3.3.2 遇到的问题及解决方案第35-36页
    3.4 微博语料库介绍第36-37页
    3.5 本章小结第37-38页
第四章 基于机器学习的微博用户性别预测第38-56页
    4.1 数据预处理及特征分析第38-41页
        4.1.1 微博文本内容预处理第38-40页
        4.1.2 用户个人资料预处理第40-41页
    4.2 实验数据特征分析第41-44页
        4.2.1 昵称数据的统计分析第41-42页
        4.2.2 动词数据的统计分析第42-44页
    4.3 根据用户昵称进行性别分类第44-49页
        4.3.1 分类算法设计第44-45页
        4.3.2 实验与分析第45-49页
    4.4 根据微博内容进行性别分类第49-54页
        4.4.1 分类算法设计第49-50页
        4.4.2 特征词选取方法第50页
        4.4.3 实验与分析第50-54页
    4.5 本章小结第54-56页
第五章 总结与展望第56-58页
    5.1 本文总结第56页
    5.2 展望第56-58页
参考文献第58-62页
攻读硕士学位期间参加的科研项目与公开发表的学术论文第62-63页
致谢第63页

论文共63页,点击 下载论文
上一篇:未来教室中网络接入管理系统的设计与实现
下一篇:基于可比语料库的跨语言信息检索研究