模板独立的网页信息抽取研究

目录	第1-5页
摘要	第5-6页
Abstract	第6-7页
第一章引言	第7-10页
·本文研究的背景	第7-8页
·本文研究内容和意义	第8页
·本文工作	第8-9页
·本文的组织结构	第9-10页
第二章研究现状及相关工作	第10-23页
·网页信息抽取技术的概述	第10-14页
·信息抽取技术的发展	第10-11页
·网贞信息抽取研究现状	第11-12页
·网页信息抽取系统分类	第12-14页
·网页信息抽取与相关技术的差异	第14-15页
·网页信息抽取与文本信息抽取的区别	第14页
·网页信息抽取与信息检索的区别	第14-15页
·网页信息抽取与自动文摘的区别	第15页
·网页信息抽取与文本挖掘的区别	第15页
·模板独立信息抽取的关键技术	第15-22页
·中心向量分类器	第16页
·K近邻算法	第16-17页
·朴素贝叶斯分类器	第17-18页
·AdaBoost方法	第18-19页
·SVM支持向量机	第19-21页
·CRF条件随机场	第21-22页
·本章小结	第22-23页
第三章模板独立的网页信息抽取	第23-37页
·抽取模型框架	第23-25页
·网页收集模块	第24页
·网络过滤模块	第24-25页
·分类判别模块	第25页
·包装器提取模块	第25页
·新闻类页面信息抽取模型	第25-31页
·模型定义	第25-28页
·分类器及特征	第28-29页
·语义包装器	第29-31页
·论坛类页面信息抽取模型	第31-36页
·模型定义	第31-32页
·Dom-Tree提取	第32页
·信息块抽取算法	第32-34页
·分类器及特征	第34-35页
·边缘检测包装器	第35-36页
·本章小结	第36-37页
第四章实验及结果	第37-46页
·评价标准	第37页
·HTML Parser	第37-39页
·采集与标注工具	第38页
·网页过滤功能	第38-39页
·新闻类页面信息抽取	第39-41页
·数据集	第39页
·新闻分类判别模块效率验证	第39-40页
·S-Wrapper性能验证	第40-41页
·论坛类页面信息抽取	第41-44页
·数据集	第41页
·信息块抽取算法验证	第41-42页
·论坛分类判别模块效率验证	第42-43页
·BD-Wrapper性能验证	第43-44页
·本章小结	第44-46页
第五章总结与展望	第46-48页
参考文献	第48-52页
攻读硕士学位期间参加的科研项目和发表的论文	第52-53页
致谢	第53-54页