首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

面向博客的主题爬虫设计与实现

摘要第5-6页
Abstract第6-7页
1 绪论第10-15页
    1.1 研究背景及意义第10-11页
    1.2 国内外研究现状第11-13页
        1.2.1 博客研究第11页
        1.2.2 主题爬虫第11-13页
    1.3 研究内容和方法第13-14页
    1.4 论文的组织结构第14-15页
2 面向博客的主题爬虫关键技术研究第15-30页
    2.1 博客基本特征分析第15-16页
    2.2 采集策略第16-17页
        2.2.1 博客采集第16页
        2.2.2 基于链接类型的采集策略第16-17页
    2.3 主题相关性判断第17-21页
    2.4 博文自动分类第21-28页
    2.5 本章小结第28-30页
3 面向博客的主题爬虫设计第30-38页
    3.1 爬虫基本原理和框架第30-32页
        3.1.1 通用爬虫技术第30-31页
        3.1.2 主题爬虫技术第31-32页
    3.2 面向博客的主题爬虫框架第32-36页
        3.2.1 爬虫框架的选择第32-33页
        3.2.2 基于webmagic的主题爬虫框架改造第33-34页
        3.2.3 数据库设计第34-36页
    3.3 本章小结第36-38页
4 面向博客的主题爬虫系统实现第38-54页
    4.1 爬虫初始化第38-41页
        4.1.1 种子管理第38-39页
        4.1.2 爬虫定时器第39-41页
    4.2 博客爬取第41-45页
        4.2.1 多线程第41-42页
        4.2.2 增量爬取第42页
        4.2.3 主题相似度计算第42-44页
        4.2.4 博文网页下载与保存第44-45页
    4.3 内容抽取第45-48页
        4.3.1 抽取定时器第45-46页
        4.3.2 博文分类第46-47页
        4.3.3 博文管理第47-48页
    4.4 系统展示第48-53页
        4.4.1 系统功能第48-50页
        4.4.2 系统开发运行环境第50-51页
        4.4.3 爬虫监控第51-52页
        4.4.4 爬虫评价第52-53页
    4.5 本章小结第53-54页
5 爬虫在博客分析中的应用研究第54-58页
    5.1 研究主题偏好分析第54-56页
    5.2 研究趋势分析第56-57页
    5.3 本章小结第57-58页
6 总结与展望第58-60页
    6.1 研究总结第58-59页
        6.1.1 论文总结第58页
        6.1.2 研究的特色与创新之处第58-59页
    6.2 研究的局限性与研究展望第59-60页
参考文献第60-62页
攻读学位期间参与科研项目第62-63页
致谢第63页

论文共63页,点击 下载论文
上一篇:高校混合式课堂设计与实践研究--以《教育技术学专业英语》课为例
下一篇:H9N2亚型禽流感非结构蛋白NS1A基因的克隆、表达及其诱导Hela细胞凋亡的研究