首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

Web页面正文信息抽取技术的研究

中文摘要第5-6页
ABSTRACT第6页
1. 绪论第9-15页
    1.1 课题的目的以及意义第9-10页
        1.1.1 课题的目的第9页
        1.1.2 课题的意义第9-10页
    1.2 国外研究现状第10-12页
    1.3 国内研究现状第12页
    1.4 本文研究的主要内容第12-13页
    1.5 本文的组织结构第13-14页
    1.6 本章小结第14-15页
2.网页特点以及抽取规则的介绍第15-22页
    2.1 概述第15页
    2.2 网页结构简介第15-18页
        2.2.1 网页特征第16页
        2.2.2 网页结构第16-17页
        2.2.3 网页架构第17-18页
    2.3 XPath技术第18-20页
        2.3.1 XPath简介第18-19页
        2.3.2 XPath应用于抽取技术第19-20页
    2.4 解析模板以及解析模板的生成第20-21页
        2.4.1 解析模板第20-21页
        2.4.2 解析模板的归纳学习第21页
    2.5 本章小结第21-22页
3.分块算法描述第22-30页
    3.1 概述第22页
    3.2 分块的描述第22-25页
        3.2.1 分块的准备工作第23页
        3.2.2 构造DOM树第23-25页
    3.3 对Web页面分块第25-29页
        3.3.1 HTML网页分类第25-26页
        3.3.2 分块方法第26-29页
    3.4 本章小结第29-30页
4.网页正文信息抽取算法第30-47页
    4.1 概述与方法策略的介绍第30-31页
    4.2 链接密度比提取正文第31-35页
        4.2.1 方法介绍第31页
        4.2.2 正文提取算法第31-34页
        4.2.3 小结第34-35页
    4.3 对块直接抽取正文第35-43页
        4.3.1 简介第35-36页
        4.3.2 本文采用的抽取方法第36-37页
        4.3.3 文本块代码重新规划第37-38页
        4.3.4 噪声过滤第38-39页
        4.3.5 文本块的过滤分类第39-43页
    4.4 算法第43-46页
        4.4.1 Web页面顺序重新规划算法第43页
        4.4.2 权值度的计算算法第43-45页
        4.4.3 正文信息集合特征提取算法第45页
        4.4.4 过滤噪声中信息算法第45-46页
    4.5 本章小结第46-47页
5.抽取实验结果与工作总结第47-51页
    5.1 概述第47-50页
        5.1.1 文本链接密度比对信息抽取正确率的影响第47-48页
        5.1.2 正文权值度对正文抽取正确率的影响第48页
        5.1.3 与传统抽取方法的比较第48-50页
    5.2 分析第50页
    5.3 总结与展望第50-51页
参考文献第51-54页
致谢第54-55页
作者简介第55-56页

论文共56页,点击 下载论文
上一篇:相山铀矿田河元背—居隆庵重点勘查区三维地质建模与分析
下一篇:主并企业文化强度、文化距离对国际并购绩效的影响--基于中国上市公司的实证研究