基于web的网页链接与正文抽取技术研究

摘要	第1-5页
Abstract	第5-9页
第1章绪论	第9-14页
·课题的目的和意义	第9页
·国内外研究现状	第9-12页
·本文研究的内容	第12-14页
第2章网页特点及分装器介绍	第14-19页
·概述	第14-15页
·网页结构的特点	第15页
·分装器及分装器的生成	第15-18页
·分装器	第15-17页
·分装器的归纳学习	第17-18页
·本章小结	第18-19页
第3章网页链接抽取方法	第19-32页
·概述	第19页
·统一资源标识和正则表达式	第19-24页
·统一资源标识	第19-21页
·正则表达式介绍	第21-24页
·基于规则机器学习的网页链接的抽取方法	第24-31页
·网页链接抽取过程	第24-29页
·实验结果与分析	第29-30页
·基于规则机器学习的网页链接抽取方法的特点	第30-31页
·本章小结	第31-32页
第4章网页正文抽取方法	第32-46页
·网页正文抽取介绍	第32-33页
·当前网页正文抽取方法存在的问题和困难	第32-33页
·本文采用的网页正文抽取方法	第33页
·基于线性化的段落划分聚类的网页正文抽取方法	第33-41页
·网页源代码线性化重构	第34-36页
·Html噪声标签过滤	第36-37页
·原始数据集过滤划分	第37-38页
·段落聚类生成网页正文脉络	第38-40页
·吸收伪噪声段落生成正文	第40-41页
·网页正文抽取算法	第41-45页
·网页代码线性化重构算法	第41-42页
·计算段落兴趣度的算法	第42页
·正文段落集合特征的抽取算法	第42-45页
·吸收伪噪声段落算法	第45页
·本章小结	第45-46页
第5章网页正文抽取实验结果与分析	第46-61页
·概述	第46页
·评测方法	第46-47页
·实验结果与分析	第47-57页
·过滤器兴趣度阈值的选择对网页正文抽取准确度的影响	第47-49页
·段落聚类中段落距离阈值的确定及对系统准确率的影响	第49-51页
·系统准确度的统计结果	第51-53页
·网页正文中噪声的分布情况及系统对三种噪声处理结果	第53-54页
·错误页面的实例分析	第54-56页
·系统在线和离线抽取时间性能的对比结果	第56-57页
·与前人工作比较	第57-59页
·本章小结	第59-61页
结论	第61-63页
参考文献	第63-67页
攻读学位期间发表的学术论文	第67-68页
哈尔滨工业大学硕士学位论文原创性声明	第68页
哈尔滨工业大学硕士学位论文使用授权书	第68页
哈尔滨工业大学硕士学位涉密论文管理	第68-69页
致谢	第69页