首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于多特征的网页信息抽取技术的研究与应用

摘要第5-7页
Abstract第7-8页
1. 绪论第12-20页
    1.1 课题背景与意义第12-13页
    1.2 国内外研究现状第13-17页
        1.2.1 网页信息形式化组织研究现状第13-14页
        1.2.2 信息抽取技术研究现状第14-17页
    1.3 论文研究思路及创新点第17-18页
    1.4 论文组织结构第18-20页
2. 网页信息抽取相关技术介绍第20-26页
    2.1 网页信息抽取概念第20页
    2.2 网页信息抽取关键技术第20-23页
        2.2.1 HTML第20-21页
        2.2.2 XML第21-22页
        2.2.3 DOM第22-23页
        2.2.4 正则表达式第23页
    2.3 网页信息抽取评价标准第23-24页
    2.4 本章小结第24-26页
3. 网页信息形式化描述模型第26-36页
    3.1 网页信息形式化描述概念及原理第28-31页
        3.1.1 网页信息形式化描述概念第28-30页
        3.1.2 网页信息、形式化组织原理第30-31页
    3.2 网页信息粒度模型第31-34页
    3.3 网页形式化模型优点第34-35页
    3.4 本章小结第35-36页
4. 基于结构与视觉相结合的信息抽取算法改进第36-52页
    4.1 网页结构分析技术第36-39页
        4.1.1 利用DOM树分析页面结构第36-37页
        4.1.2 利用HTML标签特性分析第37-38页
        4.1.3 利用网页视觉特征第38-39页
    4.2 网页DOM结构预处理第39-43页
        4.2.1 HTML格式标准化第39-40页
        4.2.2 网页噪声信息清除第40-42页
        4.2.3 DOM树节点标记信息处理第42-43页
    4.3 基于DOM结构的HTML标签分析第43-45页
        4.3.1 HTML结构性标签分析第43-44页
        4.3.2 HTML可视性标签分析第44-45页
    4.4 文本视觉特征提取与处理第45-48页
        4.4.1 基于CSS样式的视觉特征处理第46-47页
        4.4.2 基于文本特征的视觉特征处理第47-48页
    4.5 基于提取特征的块聚类第48-50页
    4.6 阈值的分析与确定第50-51页
        4.6.1 标签阂值第50页
        4.6.2 文本阈值第50-51页
    4.7 本章小结第51-52页
5. 仿真及应用实验系统设计第52-64页
    5.1 传统网站移动化系统简介第52页
    5.2 实验环境第52-53页
    5.3 仿真实验系统架构设计第53-55页
        5.3.1 信息抽取模块第53-54页
        5.3.2 网页预处理模块第54页
        5.3.3 DOM结构处理模块第54页
        5.3.4 视觉信息处理模块第54-55页
        5.3.5 信息块处理模块第55页
        5.3.6 超链接处理模块第55页
    5.4 仿真实验结果及分析第55-60页
        5.4.1 网页抽取与组织实验第55-56页
        5.4.2 运行结果分析第56-60页
    5.5 应用系统实验结果及分析第60-62页
        5.5.1 应用及优势第60-61页
        5.5.2 运行效果演示第61-62页
    5.6 本章小结第62-64页
6. 总结与展望第64-67页
    6.1 主要工作第64-65页
    6.2 主要创新点第65页
    6.3 存在问题及未来方向第65-67页
参考文献第67-71页
个人简历第71页
在校期间研究成果第71-72页
致谢第72页

论文共72页,点击 下载论文
上一篇:基于SEAndroid的安卓隐私保护系统
下一篇:基于AHP的信用评价方法在公益拼车模式中的研究与应用