首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于web的网页链接与正文抽取技术研究

摘要第1-5页
Abstract第5-9页
第1章 绪论第9-14页
   ·课题的目的和意义第9页
   ·国内外研究现状第9-12页
   ·本文研究的内容第12-14页
第2章 网页特点及分装器介绍第14-19页
   ·概述第14-15页
   ·网页结构的特点第15页
   ·分装器及分装器的生成第15-18页
     ·分装器第15-17页
     ·分装器的归纳学习第17-18页
   ·本章小结第18-19页
第3章 网页链接抽取方法第19-32页
   ·概述第19页
   ·统一资源标识和正则表达式第19-24页
     ·统一资源标识第19-21页
     ·正则表达式介绍第21-24页
   ·基于规则机器学习的网页链接的抽取方法第24-31页
     ·网页链接抽取过程第24-29页
     ·实验结果与分析第29-30页
     ·基于规则机器学习的网页链接抽取方法的特点第30-31页
   ·本章小结第31-32页
第4章 网页正文抽取方法第32-46页
   ·网页正文抽取介绍第32-33页
     ·当前网页正文抽取方法存在的问题和困难第32-33页
     ·本文采用的网页正文抽取方法第33页
   ·基于线性化的段落划分聚类的网页正文抽取方法第33-41页
     ·网页源代码线性化重构第34-36页
     ·Html噪声标签过滤第36-37页
     ·原始数据集过滤划分第37-38页
     ·段落聚类生成网页正文脉络第38-40页
     ·吸收伪噪声段落生成正文第40-41页
   ·网页正文抽取算法第41-45页
     ·网页代码线性化重构算法第41-42页
     ·计算段落兴趣度的算法第42页
     ·正文段落集合特征的抽取算法第42-45页
     ·吸收伪噪声段落算法第45页
   ·本章小结第45-46页
第5章 网页正文抽取实验结果与分析第46-61页
   ·概述第46页
   ·评测方法第46-47页
   ·实验结果与分析第47-57页
     ·过滤器兴趣度阈值的选择对网页正文抽取准确度的影响第47-49页
     ·段落聚类中段落距离阈值的确定及对系统准确率的影响第49-51页
     ·系统准确度的统计结果第51-53页
     ·网页正文中噪声的分布情况及系统对三种噪声处理结果第53-54页
     ·错误页面的实例分析第54-56页
     ·系统在线和离线抽取时间性能的对比结果第56-57页
   ·与前人工作比较第57-59页
   ·本章小结第59-61页
结论第61-63页
参考文献第63-67页
攻读学位期间发表的学术论文第67-68页
哈尔滨工业大学硕士学位论文原创性声明第68页
哈尔滨工业大学硕士学位论文使用授权书第68页
哈尔滨工业大学硕士学位涉密论文管理第68-69页
致谢第69页

论文共69页,点击 下载论文
上一篇:转神经生长因子基因在增生性瘢痕中的作用
下一篇:PPARγ配体15d-PGJ2在近交系大鼠肝移植中对T淋巴细胞免疫调节作用的研究