首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

智能Web新闻文本采集方法研究

摘要第5-6页
ABSTRACT第6-7页
主要术语对照表第13-14页
第一章 绪论第14-18页
    1.1 研究背景及意义第14-15页
    1.2 研究现状第15-16页
    1.3 本文研究内容第16页
    1.4 本文章节安排第16-18页
第二章 新闻文本采集相关技术第18-28页
    2.1 网络爬虫相关技术第18-21页
        2.1.1 网络爬虫策略第18-20页
        2.1.2 网络爬虫分类第20-21页
    2.2 新闻网页正文提取技术第21-26页
    2.3 非新闻网页自识别技术第26-27页
    2.4 本章小结第27-28页
第三章 基于文本标签特征挖掘的网页正文提取方法第28-61页
    3.1 方法思想及流程介绍第28-30页
    3.2 网页源码预处理及修复第30-34页
        3.2.1 HTML语言标准及特点分析第30-31页
        3.2.2 文本标签预处理第31-33页
        3.2.3 标签修复及转义字符处理第33-34页
    3.3 文本标签特征选取及标签聚类第34-43页
        3.3.1 文本标签特征工程第34-36页
        3.3.2 文本标签特征提取方法第36-39页
        3.3.3 文本标签特征向量及权重选择第39-40页
        3.3.4 文本标签挖掘算法及选择第40-43页
    3.4 正文簇选择及标签经验性调整第43-49页
        3.4.1 初选正文簇选择策略第43-45页
        3.4.2 正文簇经验性调整第45-49页
    3.5 非新闻网页自识别及文本提取第49-54页
        3.5.1 非新闻网页自识别方法第49-52页
        3.5.2 非新闻网页自识别方法实验及分析第52-53页
        3.5.3 正文簇标签文本提取第53-54页
    3.6 实验及方法性能评估第54-60页
        3.6.1 性能评估指标与实验数据集第54-55页
        3.6.2 正文提取效果展示第55-57页
        3.6.3 实验结果及评估分析第57-60页
    3.7 本章小节第60-61页
第四章 基于智能模版的新闻网页正文提取方法第61-74页
    4.1 方法思想及流程介绍第61-63页
    4.2 网页解析模版自动生成方法第63-67页
        4.2.1 网页源码结构分析第63-64页
        4.2.2 网页正文标签块信息挖掘第64-65页
        4.2.3 模版参数获取第65-67页
    4.3 基于模版参数解析网页第67-69页
    4.4 实验及性能评估第69-73页
        4.4.1 实验及数据集简介第69-70页
        4.4.2 实验测评标准第70-71页
        4.4.3 实验结果与分析第71-73页
    4.5 本章小结第73-74页
第五章 总结与展望第74-76页
    5.1 工作总结第74-75页
    5.2 工作的不足与展望第75-76页
致谢第76-77页
参考文献第77-79页
攻读硕士学位期间取得的研究成果第79页

论文共79页,点击 下载论文
上一篇:忆阻混沌电路在图像加密中的应用
下一篇:基于电子海图的三维海洋可视化研究与实现