| 第一章 绪 论 | 第6-15页 |
| 1.1 链接上下文相关文本及其作用 | 第6-7页 |
| 1.2 提取链接上下文相关文本带来的技术挑战 | 第7-14页 |
| 1.3 本文所做的工作 | 第14-15页 |
| 第二章 HTML语言及DOM树 | 第15-20页 |
| 2.1 HTML语言 | 第15-18页 |
| 2.2 与网页结构对应的DOM树 | 第18-20页 |
| 第三章 自然语言处理中的解析技术 | 第20-22页 |
| 第四章 链接上下文相关文本提取新方法 | 第22-37页 |
| 4.1 总体框架 | 第22-23页 |
| 4.2 对网页“段落”的定位 | 第23-25页 |
| 4.3 对锚文本和邻近文本的定位 | 第25-31页 |
| 4.4 对相关“标题文本”的提取 | 第31-35页 |
| 4.5 总体算法流程的伪码表示 | 第35-37页 |
| 第五章 算法的系统实现及比较实验结果 | 第37-44页 |
| 5.1 系统实现 | 第37-38页 |
| 5.2 比较实验结果 | 第38-42页 |
| 5.3 新方法的局限性和可能的改进 | 第42-44页 |
| 第六章 结束语 | 第44-45页 |
| 参考文献 | 第45-47页 |
| 论文摘要 | 第47-48页 |
| Abstract | 第48页 |