| 提要 | 第1-9页 |
| 第一章 绪论 | 第9-29页 |
| ·研究背景 | 第9-11页 |
| ·主题爬行技术的意义 | 第9-10页 |
| ·主题爬行技术的发展 | 第10-11页 |
| ·Web 挖掘与搜索引擎 | 第11-15页 |
| ·Web 挖掘 | 第11-12页 |
| ·搜索引擎及发展 | 第12-15页 |
| ·搜索引擎的分类 | 第12-13页 |
| ·搜索引擎的发展历史 | 第13页 |
| ·搜索引擎的基本原理 | 第13-14页 |
| ·面向主题的专业搜索引擎 | 第14-15页 |
| ·搜索引擎的未来发展 | 第15页 |
| ·主题爬行技术基本原理 | 第15-20页 |
| ·网页信息下载 | 第17页 |
| ·分类器 | 第17-18页 |
| ·URLs 排序 | 第18页 |
| ·爬行策略的探索 | 第18-20页 |
| ·面向立即回报的目标网页内容评价策略 | 第18-19页 |
| ·面向未来回报的Tunnel 页面评价策略 | 第19-20页 |
| ·面向未来回报的在线机器学习策略 | 第20页 |
| ·网页分类技术 | 第20-25页 |
| ·文档分类概念 | 第21页 |
| ·文档分类方法 | 第21-22页 |
| ·文档分类过程 | 第22-23页 |
| ·文档分类关键技术 | 第23-25页 |
| ·文本表示 | 第23页 |
| ·特征提取 | 第23页 |
| ·分类模型 | 第23-25页 |
| ·文档分类意义 | 第25页 |
| ·本文工作 | 第25-29页 |
| ·利用网页结构对基于链接上下文的自适应主题爬行研究 | 第26页 |
| ·改进的粒子群优化算法的优化过程 | 第26页 |
| ·对增量过程的研究 | 第26页 |
| ·隧道的穿越 | 第26-27页 |
| ·专业搜索引擎LookClearTSSE 的构建 | 第27-29页 |
| 第二章 基于链接上下文的自适应爬行技术 | 第29-55页 |
| ·链接上下文(Link-contexts)简介 | 第29-31页 |
| ·链接上下文提取算法 | 第31-39页 |
| ·提取固定数量文本 | 第32-33页 |
| ·利用HTML Tag 树结构提取上下文 | 第33-37页 |
| ·综合提取链接上下文?ζ-IDOM | 第37-39页 |
| ·利用反向链接(Back-links)提取特征集 | 第39-41页 |
| ·基于链接上下文的自适应(Self-adaptive)主题爬行 | 第41-45页 |
| ·链接上下文的主题表示及判断方法 | 第41-42页 |
| ·自适应主题爬行算法 | 第42-45页 |
| ·性能评价 | 第45-52页 |
| ·评价方法 | 第45-46页 |
| ·实验结果 | 第46-52页 |
| ·小结 | 第52-55页 |
| 第三章 BWPSO 的优化过程 | 第55-73页 |
| ·引言 | 第55-56页 |
| ·粒子群优化算法原理及改进 | 第56-63页 |
| ·改进的粒子群优化算法BWPSO | 第56-59页 |
| ·测试实验 | 第59-63页 |
| ·BWPSO 优化过程 | 第63-68页 |
| ·网页预处理及表示 | 第63-66页 |
| ·网页分类器的训练及BWPSO 优化过程 | 第66-68页 |
| ·实验及结果 | 第68-71页 |
| ·小结 | 第71-73页 |
| 第四章 ITCMS:增量特性的主题爬行策略 | 第73-103页 |
| ·算法增量 | 第73-86页 |
| ·增量模型 | 第73-75页 |
| ·增量训练过程 | 第75-76页 |
| ·PU 分类问题 | 第76-78页 |
| ·可信反例的提取 | 第78-79页 |
| ·改进的1-DNF 算法 | 第79-81页 |
| ·构建分类器 | 第81-82页 |
| ·实验结果分析 | 第82-86页 |
| ·数据增量 | 第86-103页 |
| ·网页变化的判定依据 | 第87-88页 |
| ·基于网页内容的判定 | 第88-92页 |
| ·网页噪音的去除 | 第88-89页 |
| ·基于主题的噪音去除过程 | 第89-91页 |
| ·基于DOM 树的网页变化判定过程 | 第91-92页 |
| ·网页变化的随机性 | 第92-97页 |
| ·网页变化的数学模型 | 第97-98页 |
| ·数据增量爬行算法 | 第98-101页 |
| ·测试结果 | 第101-103页 |
| 第五章 隧道的穿越 | 第103-123页 |
| ·引言 | 第103-105页 |
| ·灰色隧道的穿越 | 第105-114页 |
| ·方法简介 | 第105-106页 |
| ·基于DOM 树的网页分块 | 第106-108页 |
| ·基于网页分块的爬行过程 | 第108-110页 |
| ·实验结果 | 第110-114页 |
| ·黑色隧道的穿越 | 第114-120页 |
| ·黑色隧道中的网页处理 | 第115-117页 |
| ·测试结果 | 第117-120页 |
| ·利用关联规则与Petri 网穿越隧道的启发 | 第120-121页 |
| ·小结 | 第121-123页 |
| 第六章 LookClearTSSE: 专业搜索引擎 | 第123-147页 |
| ·LookClearTSSE 体系结构 | 第123-125页 |
| ·主题网络信息采集 | 第125-129页 |
| ·增量索引结构的建立 | 第129-139页 |
| ·预处理 | 第129-132页 |
| ·增量索引结构的建立 | 第132-139页 |
| ·正排索引 | 第133-134页 |
| ·增量倒排索引 | 第134-139页 |
| ·网络信息查询服务 | 第139-147页 |
| ·建立索引的检索接口 | 第139-141页 |
| ·查询结果的排序 | 第141-143页 |
| ·性能分析 | 第143-147页 |
| 第七章 结论与展望 | 第147-151页 |
| ·结论 | 第147-148页 |
| ·未来展望 | 第148-151页 |
| 参考文献 | 第151-162页 |
| 致 谢 | 第162-163页 |
| 作者读博士期间发表的部分论文目录 | 第163-165页 |
| 摘 要 | 第165-169页 |
| Abstract | 第169-173页 |