1 第一章 概述 | 第1-12页 |
·引言 | 第9-10页 |
·背景 | 第9页 |
·隐蔽网络 | 第9-10页 |
·网页信息抽取 | 第10页 |
·本文的工作 | 第10-11页 |
·本文的组织 | 第11-12页 |
2 第二章 相关研究 | 第12-17页 |
·相关研究 | 第12-15页 |
·研究总结和本文的相关工作 | 第15-17页 |
3 第三章 相关标准 | 第17-26页 |
·HTML(Hyper Text Markup Language) | 第17页 |
·XML | 第17-19页 |
·XHTML | 第19-20页 |
·XPath | 第20-24页 |
·XSLT | 第24-26页 |
4 第四章 网页信息抽取中所要解决的两个基本问题 | 第26-35页 |
·HTML向XHTML的转换 | 第26-29页 |
·中文内码的同步更新 | 第29-35页 |
·HTML网页转换为XML格式文档的中文问题解决办法 | 第30-31页 |
·XML文档进行格式转换或数据输入、输出时的中文解决办法 | 第31-35页 |
5 第五章 基于XSLT网页抽取规则的分析与探讨 | 第35-51页 |
·几种常用抽取规则的分析与比较 | 第35-43页 |
·绝对路径抽取法 | 第35-36页 |
·缩写路径抽取法 | 第36-37页 |
·基于锚点的抽取方法 | 第37-39页 |
·基于属性的抽取方法 | 第39-40页 |
·基于单层扁平结构的抽取方法 | 第40-43页 |
·不同抽取方法的比较 | 第43页 |
·两类典型网页信息抽取模式的分析与示例 | 第43-51页 |
·基于主题链接组信息抽取模式 | 第43-48页 |
·基于多记录的表信息抽取模式 | 第48-51页 |
6 第六章 表单提取器的构建与实现 | 第51-72页 |
·表单的结构和特点 | 第51-54页 |
· | 第51-52页 |
·表单输入标记 | 第52-53页 |
· | 第53页 |
· | 第53页 |
· | 第53-54页 |
·自动提交表单所需要解决的主要问题 | 第54-59页 |
·表单标记的预处理 | 第54-55页 |
·识别表单的类型 | 第55页 |
·表单元素的标识处理 | 第55-57页 |
·将相对URL地址转化为绝对URL地址 | 第57-58页 |
·提取表单元素的名值对形成URL的参数进行提交 | 第58-59页 |
·表单提取器的具体实现 | 第59-72页 |
7 第七章 多记录网页信息抽取的研究与实现 | 第72-94页 |
·Web服务器响应查询表单的基本工作原理 | 第73页 |
·Web服务器响应查询表单所反馈网页的结构特点 | 第73-79页 |
·两种通用的抽取模式 | 第79-81页 |
·抽取网页中重复的记录信息 | 第81-91页 |
·抽取反馈网页中“下一页”中的信息 | 第91-94页 |
8 第八章 自动提交表单并自动抽取反馈网页中数据系统模型 | 第94-100页 |
·系统框架模型 | 第94-95页 |
·实验 | 第95-100页 |
9 第九章 结束语 | 第100-102页 |
·总结 | 第100页 |
·展望和下一步工作 | 第100-102页 |
致谢 | 第102-103页 |
参考文献 | 第103-108页 |
攻读硕士学位期间的发表论文 | 第108页 |