网页属性抽取的方法研究

摘要	第1-6页
ABSTRACT	第6-10页
1. 绪论	第10-18页
·国内外研究现状	第10-16页
·Web 信息抽取	第11-14页
·中文姓名识别	第14-15页
·Wrapper 失效检测	第15-16页
·研究内容及意义	第16-17页
·论文的组织结构	第17-18页
2. 新闻网页的中文作者识别机制	第18-34页
·新闻网页中中文作者的特征场景	第18-24页
·中文姓名特征场景	第18-21页
·文本特征场景	第21-22页
·网页结构特征场景	第22-24页
·新闻网页的中文作者识别机制	第24-31页
·关键问题分析	第25-30页
·算法描述	第30-31页
·实验	第31-33页
·实验内容	第31-32页
·评价方法	第32页
·实验结果与分析	第32-33页
·小结	第33-34页
3.Wrapper 失效检测机制	第34-59页
·相关工作	第34-37页
·RAPTURE 算法	第34-35页
·基于机器学习技术的模式集合验证算法	第35-37页
·Wrapper 失效检测机制	第37-43页
·检测机制概述	第37页
·关键问题分析	第37-41页
·Wrapper 验证算法	第41-42页
·检测机制流程	第42-43页
·论坛帖子索引页面的Wrapper 失效检测机制	第43-57页
·Wrapper 验证算法	第44-51页
·检测样例的选取	第51页
·实验	第51-57页
·小结	第57-59页
4. 新闻网页的作者来源抽取HtmlSAE 组件	第59-68页
·组件的需求分析	第59页
·组件的处理流程	第59-61页
·组件的标准化	第61-64页
·组件标准化的目的	第61页
·Cmake	第61-64页
·组件的实现	第64-65页
·结果展示与分析	第65-67页
·小结	第67-68页
5. 总结与展望	第68-71页
·本文工作总结	第68-69页
·进一步研究方向	第69-71页
参考文献	第71-77页
致谢	第77页