首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于内容的网页采集分类系统的设计与实现

摘要第5-6页
Abstract第6页
本论文专用术语注释表第9-10页
第一章 绪论第10-13页
    1.1 课题研究的背景和意义第10页
    1.2 课题研究现状第10-12页
    1.3 本文的主要研究内容第12页
    1.4 本文的组织结构第12-13页
第二章 相关技术介绍第13-29页
    2.1 爬虫技术第13-16页
        2.1.1 爬虫搜索策略第13-15页
        2.1.2 常见的爬虫框架及介绍第15-16页
    2.2 网页正文提取技术第16-19页
    2.3 文本预处理第19-20页
    2.4 文本的表示方法第20-22页
    2.5 文本特征选择方法第22-24页
    2.6 文本分类方法第24-28页
    2.7 本章小结第28-29页
第三章 系统关键技术与算法设计第29-38页
    3.1 网页正文提取技术第29-31页
        3.1.1 算法原理第29-31页
        3.1.2 最优值选取第31页
    3.2 LLDA-SVM 分类器第31-37页
        3.2.1 分类性能评价第31-33页
        3.2.2 相关框架第33-35页
        3.2.3 实验设计及结果分析第35-37页
    3.3 本章小结第37-38页
第四章 系统设计与实现第38-49页
    4.1 系统的需求分析第38-39页
    4.2 系统的总体设计第39-40页
    4.3 系统的开发环境第40-42页
        4.3.1 系统的开发环境配置第40页
        4.3.2 系统数据库设计第40-42页
    4.4 网页采集模块的设计与实现第42-44页
        4.4.1 新闻网页的采集来源第42页
        4.4.2 网页的爬取和更新策略第42-44页
        4.4.3 网页正文提取第44页
    4.5 文本分类模块的设计与实现第44-47页
        4.5.1 文本预处理第44-46页
        4.5.2 主题分类第46-47页
    4.6 结果展示模块第47-48页
    4.7 本章小结第48-49页
第五章 系统的展示与评估第49-53页
    5.1 系统展示第49-51页
        5.1.1 系统运行环境第49页
        5.1.2 系统界面第49-51页
    5.2 系统的性能评估第51-52页
        5.2.1 系统采集性能第51-52页
        5.2.2 系统分类准确率第52页
    5.3 本章小结第52-53页
第六章 总结与展望第53-54页
    6.1 工作总结第53页
    6.2 展望第53-54页
致谢第54-55页
参考文献第55-57页

论文共57页,点击 下载论文
上一篇:基于SOI CMOS工艺的手机射频前端开关关键技术研究
下一篇:基于SCOR模型的BC公司供应链优化研究