首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于文本密度和页面结构的网页信息抽取技术研究与实现

摘要第5-7页
Abstract第7-8页
1. 绪论第11-19页
    1.1. 研究背景和目的第11-13页
    1.2. 国内外发展现状第13-16页
    1.3. 课题研究的思路第16-17页
    1.4. 论文结构第17-19页
2. 网页信息抽取相关技术简介第19-31页
    2.1. 信息抽取简介第19-22页
        2.1.1. 信息抽取与信息检索第19页
        2.1.2. 网页信息抽取工具第19-20页
        2.1.3. 制定网页信息抽取规则第20-22页
    2.2. 网页信息抽取相关技术第22-24页
        2.2.1. 基于自然语言的网页信息抽取第22页
        2.2.2. 基于包装器的网页信息抽取第22-24页
        2.2.3. 基于Ontology的网页信息抽取第24页
        2.2.4. 基于模板的网页信息抽取第24页
    2.3. 页面结构介绍第24-27页
        2.3.1. 基于DOM树页面结构分析第24-25页
        2.3.2. 基于HTML标签页面结构划分第25-26页
        2.3.3. 基于视觉特征的页面结构划分第26-27页
    2.4. 文本密度介绍第27-28页
    2.5. 网页信息抽取评价标准第28-29页
    2.6. 本章小结第29-31页
3. 页面分块算法研究第31-39页
    3.1. 网页预处理第31-33页
        3.1.1. 网页编码格式检测第31-32页
        3.1.2. 网页标准化第32-33页
        3.1.3. 清除冗余块第33页
    3.2. 定义网页标签种类第33-35页
        3.2.1. 块级元素第33-34页
        3.2.2. 内联元素第34页
        3.2.3. 排版元素第34-35页
    3.3. 定义分块原则第35-36页
    3.4. 分块算法第36-38页
    3.5. 本章小结第38-39页
4. 基于文本密度的网页信息抽取第39-47页
    4.1. 定义文本密度的测量方法第39-40页
    4.2. 文本密度的算法原理及流程第40-42页
    4.3. 根据文本密度抽取信息第42页
    4.4. 阈值设定第42-45页
        4.4.1. 样本数据来源第43页
        4.4.2. 性能指标第43-44页
        4.4.3. 实验结果分析第44-45页
    4.5. 本章小结第45-47页
5. 基于文本密度和页面结构的网页信息抽取技术验证与实现第47-59页
    5.1. 系统设计目标第47-48页
    5.2. 系统总体框架第48-49页
    5.3. 系统模块的设计与实现第49-53页
        5.3.1. 网页预处理第49-50页
        5.3.2. 网页分块第50-52页
        5.3.3. 网页信息提取测试第52-53页
    5.4. 结果演示第53-57页
    5.5. 本章小结第57-59页
6. 总结与展望第59-61页
    6.1. 论文工作总结第59-60页
    6.2. 未来研究与展望第60-61页
参考文献第61-65页
致谢第65-67页
个人简历第67页

论文共67页,点击 下载论文
上一篇:基于双目立体视觉的水下环境三维重建
下一篇:基于对支持向量机的医学图像分类研究