首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

面向多通道爬虫的Web信息抽取技术研究

摘要第4-5页
Abstract第5页
第1章 绪论第9-17页
    1.1 课题背景与研究意义第9-10页
    1.2 国内外研究现状第10-15页
        1.2.1 Web内容抽取第10-13页
        1.2.2 Web数据记录抽取第13-15页
    1.3 研究内容与组织结构第15-17页
第2章 基于有效字符的Web内容抽取第17-40页
    2.1 概述第17-19页
    2.2 对?算法及实现第19-23页
        2.2.1 基于?本标签?的内容抽取算法第19-20页
        2.2.2 基于?本密度的内容抽取算法第20-22页
        2.2.3 基于?本标签路径?的内容抽取算法第22-23页
    2.3 基于有效字符的Web内容抽取算法第23-31页
        2.3.1 ?档对象模型(DOM)第23-25页
        2.3.2 有效字符定义与统计?法第25-27页
        2.3.3 核?内容块定位?法第27-29页
        2.3.4 算法实现概述第29-31页
    2.4 新闻和博客的内容抽取实验第31-39页
        2.4.1 内容抽取评价指标第31-32页
        2.4.2 新闻和博客数据集第32-33页
        2.4.3 算法的参数调整第33页
        2.4.4 实验过程与结果第33-34页
        2.4.5 实验结果分析第34-39页
    2.5 本章?结第39-40页
第3章 基于锚节点的论坛帖子抽取第40-58页
    3.1 概述第40-41页
    3.2 对?算法及实现第41-42页
    3.3 基于锚节点的帖?抽取算法第42-52页
        3.3.1 树匹配算法第42-44页
        3.3.2 锚节点定义与统计?法第44-45页
        3.3.3 帖??节点定位?法第45-47页
        3.3.4 候选帖?筛选?法第47-51页
        3.3.5 算法实现概述第51-52页
    3.4 论坛帖?抽取实验第52-57页
        3.4.1 帖?抽取评价指标第52页
        3.4.2 论坛数据集第52-54页
        3.4.3 实验过程和结果分析第54-57页
    3.5 本章?结第57-58页
第4章 Web新闻采集系统的设计与实现第58-72页
    4.1 概述第58-59页
    4.2 总体设计?案第59-61页
        4.2.1 系统架构第59-60页
        4.2.2 新闻采集流程第60-61页
    4.3 各模块的设计与实现第61-68页
        4.3.1 列表解析模块第61-63页
        4.3.2 信息抽取模块第63-65页
        4.3.3 URL过滤模块第65-66页
        4.3.4 并?调度模块第66-67页
        4.3.5 存储和检索模块第67-68页
    4.4 运?效果评估第68-71页
        4.4.1 测试环境第68-69页
        4.4.2 新闻采集统计第69页
        4.4.3 新闻信息抽取测试第69-70页
        4.4.4 新闻检索测试第70-71页
    4.5 本章?结第71-72页
结论第72-73页
参考文献第73-77页
攻读硕士学位期间发表的论文及其他成果第77-79页
致谢第79页

论文共79页,点击 下载论文
上一篇:第四届中国捷克斯洛伐克友谊农场对外合作推介会口译实践报告
下一篇:2016中国风电大会口译实践报告