第一章 绪 论 | 第6-15页 |
1.1 链接上下文相关文本及其作用 | 第6-7页 |
1.2 提取链接上下文相关文本带来的技术挑战 | 第7-14页 |
1.3 本文所做的工作 | 第14-15页 |
第二章 HTML语言及DOM树 | 第15-20页 |
2.1 HTML语言 | 第15-18页 |
2.2 与网页结构对应的DOM树 | 第18-20页 |
第三章 自然语言处理中的解析技术 | 第20-22页 |
第四章 链接上下文相关文本提取新方法 | 第22-37页 |
4.1 总体框架 | 第22-23页 |
4.2 对网页“段落”的定位 | 第23-25页 |
4.3 对锚文本和邻近文本的定位 | 第25-31页 |
4.4 对相关“标题文本”的提取 | 第31-35页 |
4.5 总体算法流程的伪码表示 | 第35-37页 |
第五章 算法的系统实现及比较实验结果 | 第37-44页 |
5.1 系统实现 | 第37-38页 |
5.2 比较实验结果 | 第38-42页 |
5.3 新方法的局限性和可能的改进 | 第42-44页 |
第六章 结束语 | 第44-45页 |
参考文献 | 第45-47页 |
论文摘要 | 第47-48页 |
Abstract | 第48页 |