| 提要 | 第1-9页 |
| 第1章 绪论 | 第9-27页 |
| ·搜索引擎概述 | 第9-13页 |
| ·搜索引擎的发展历程 | 第10-11页 |
| ·下一代搜索引擎 | 第11-12页 |
| ·现代搜索引擎的系统结构 | 第12-13页 |
| ·主题爬行技术 | 第13-17页 |
| ·第一代主题爬行器 | 第14-15页 |
| ·第二代主题爬行器——加速主题爬行器 | 第15-16页 |
| ·主题爬行的其他工作 | 第16-17页 |
| ·文本挖掘 | 第17-20页 |
| ·自动文本分类 | 第18-20页 |
| ·文本聚类 | 第20页 |
| ·机器学习 | 第20-24页 |
| ·无监督学习与监督学习 | 第21页 |
| ·半监督学习 | 第21-23页 |
| ·基于正例和无标记样例学习 | 第23-24页 |
| ·本文的研究内容 | 第24-25页 |
| ·本文的组织结构 | 第25-27页 |
| 第2章 相关工作 | 第27-51页 |
| ·文本挖掘技术 | 第27-38页 |
| ·文本表示 | 第27-31页 |
| ·文本分类算法简介 | 第31-36页 |
| ·文本聚类 | 第36-38页 |
| ·基于正例和无标记样例学习研究进展 | 第38-47页 |
| ·基于两阶段策略的方法 | 第39-44页 |
| ·基于正例统计查询学习模型的方法 | 第44-45页 |
| ·基于反例偏置的方法 | 第45-47页 |
| ·本文试验设置 | 第47-49页 |
| ·数据集 | 第47页 |
| ·数据预处理 | 第47-48页 |
| ·评估准则 | 第48-49页 |
| ·小结 | 第49-51页 |
| 第3章 本文提出的可靠反例提取方法 | 第51-85页 |
| ·基于 k-Means 的可靠反例提取算法 | 第51-68页 |
| ·无标记样例的价值 | 第51-53页 |
| ·聚类假设 | 第53-54页 |
| ·常用聚类算法 | 第54-62页 |
| ·聚类辅助的文本分类 | 第62-65页 |
| ·建议的方法 | 第65页 |
| ·实验及结果 | 第65-68页 |
| ·基于约束 k-Means 的可靠反例提取算法 | 第68-77页 |
| ·基于约束的聚类 | 第68页 |
| ·半监督聚类 | 第68-74页 |
| ·建议的方法 | 第74-76页 |
| ·实验及结果 | 第76-77页 |
| ·基于 kNN 的 Ranking 学习的可靠反例提取算法 | 第77-84页 |
| ·kNN算法回顾 | 第77-78页 |
| ·Ranking学习 | 第78-79页 |
| ·基于kNN的Ranking算法 | 第79-81页 |
| ·建议的方法 | 第81-82页 |
| ·实验及结果 | 第82-84页 |
| ·小结 | 第84-85页 |
| 第4章 基于协同训练范型的PU学习 | 第85-111页 |
| ·协同训练范型 | 第85-92页 |
| ·协同训练算法 | 第86-89页 |
| ·协同训练算法研究进展 | 第89-90页 |
| ·协同训练算法的应用 | 第90-92页 |
| ·基于 Co-EM SVM 的 PU 学习 | 第92-101页 |
| ·Co-EM算法 | 第93页 |
| ·Co-EM SVM算法 | 第93-95页 |
| ·建议的方法 | 第95-100页 |
| ·实验及结果 | 第100-101页 |
| ·基于 Tri-training 的 PU 学习 | 第101-108页 |
| ·Tri-training算法 | 第101-105页 |
| ·建议的方法 | 第105-108页 |
| ·实验及结果 | 第108页 |
| ·小结 | 第108-111页 |
| 第5章 总结与展望 | 第111-115页 |
| ·本文总结 | 第111-113页 |
| ·未来的工作 | 第113-115页 |
| 参考文献 | 第115-128页 |
| 攻读博士学位期间发表的学术论文及取得的科研成果 | 第128-130页 |
| 致谢 | 第130-131页 |
| 摘要 | 第131-134页 |
| ABSTRACT | 第134-138页 |