| 摘要 | 第1-7页 |
| ABSTRACT | 第7-9页 |
| 目录 | 第9-13页 |
| 第一章 绪论 | 第13-37页 |
| ·WEB信息获取的研究意义 | 第13-14页 |
| ·相关研究综述 | 第14-30页 |
| ·Web信息采集 | 第15-18页 |
| ·Web信息采集面临的主要困难 | 第15-16页 |
| ·Web信息采集的类型 | 第16-18页 |
| ·Web信息抽取 | 第18-21页 |
| ·Web信息抽取的意义 | 第19页 |
| ·信息抽取与信息检索 | 第19-20页 |
| ·信息抽取任务的类型 | 第20-21页 |
| ·影响信息抽取技术的因素 | 第21页 |
| ·聚类分析 | 第21-27页 |
| ·数据表示 | 第22页 |
| ·聚类的标准或目标函数 | 第22-24页 |
| ·聚类的搜索算法 | 第24-25页 |
| ·常见聚类算法 | 第25-26页 |
| ·Web/文本聚类的特点和方法 | 第26-27页 |
| ·新闻相关研究 | 第27-30页 |
| ·网络新闻语料的选择原因 | 第28-29页 |
| ·新闻事件探测和跟踪 | 第29-30页 |
| ·多篇摘要 | 第30页 |
| ·研究内容 | 第30-31页 |
| ·WEB信息获取总体设计思路 | 第31-35页 |
| ·“数据决定策略” | 第33页 |
| ·“需求决定策略” | 第33-35页 |
| ·论文组织 | 第35-37页 |
| 第二章 基于多主体的网络信息采集研究 | 第37-63页 |
| ·引言 | 第37-38页 |
| ·基于多主体的WEB信息采集模型 | 第38-43页 |
| ·体系结构 | 第39-41页 |
| ·主体实例模型 | 第41-42页 |
| ·主体内部运行机制 | 第42-43页 |
| ·专题跟踪采集模式 | 第43-50页 |
| ·Web主题页面的分布特点 | 第44-46页 |
| ·主题相关性计算模型 | 第46-50页 |
| ·基于链接关系及其链接深度的URL主题相关性计算模型 | 第46-47页 |
| ·基于HTML标记信息的主题相关性计算模型 | 第47-49页 |
| ·基于网页语义计算主题相关度 | 第49-50页 |
| ·噪音去除 | 第50-56页 |
| ·噪音数据存在形式及相关定义 | 第51页 |
| ·噪音数据的特点及其影响 | 第51-52页 |
| ·噪音数据去除策略 | 第52-56页 |
| ·基于HTML标记信息的噪音判别模型 | 第53-54页 |
| ·基于数据冗余的噪音数据判别模型 | 第54-55页 |
| ·基于标记文本信息熵的噪音数据判别模型 | 第55-56页 |
| ·系统实现及实验结果分析 | 第56-62页 |
| ·系统特点 | 第56-57页 |
| ·实验分析 | 第57-62页 |
| ·小结 | 第62-63页 |
| 第三章 基于统计与规则方法相结合的新词发现 | 第63-79页 |
| ·引言 | 第63-64页 |
| ·系统结构及其相关概念 | 第64-67页 |
| ·系统体系结构及其工作流程 | 第65-66页 |
| ·相关概念 | 第66-67页 |
| ·统计模型 | 第67-72页 |
| ·“二元语法”统计模型 | 第68-69页 |
| ·统计垃级 | 第69-70页 |
| ·统计选词 | 第70-72页 |
| ·规则选词 | 第72-74页 |
| ·单字组合词规则 | 第72-73页 |
| ·多字组合词规则 | 第73-74页 |
| ·实验结果分析 | 第74-76页 |
| ·评价标准 | 第74-75页 |
| ·实验结果 | 第75-76页 |
| ·小结 | 第76-79页 |
| 第四章 事件探测和追踪 | 第79-95页 |
| ·引言 | 第79-80页 |
| ·概念模型 | 第80-81页 |
| ·模型知识的设计和学习 | 第81-87页 |
| ·预处理过程和文档表示 | 第82-83页 |
| ·特征权重的计算 | 第82页 |
| ·文档特征选取 | 第82-83页 |
| ·时间知识的学习 | 第83-85页 |
| ·文档中与时间相关的信息 | 第84页 |
| ·时间学习算法 | 第84-85页 |
| ·事件模板知识的学习 | 第85-87页 |
| ·事件特征权值计算 | 第85-86页 |
| ·事件特征选择 | 第86页 |
| ·事件模板进化策略 | 第86-87页 |
| ·事件探测和追踪 | 第87-91页 |
| ·事件探测和追踪算法 | 第88页 |
| ·基于时间距离的相似度计算模型 | 第88-90页 |
| ·基于“类间距离”提高算法效率 | 第90-91页 |
| ·实验结果与讨论 | 第91-93页 |
| ·小结 | 第93-95页 |
| 第五章 事件来龙去脉生成 | 第95-111页 |
| ·引言 | 第95-96页 |
| ·新闻报道的摘要生成 | 第96-100页 |
| ·摘要生成模型 | 第96-97页 |
| ·段落相似度计算模型 | 第97-99页 |
| ·文摘主题相关性判别及其润色 | 第99-100页 |
| ·事件来龙去脉的生成 | 第100-106页 |
| ·概念模型 | 第100-102页 |
| ·事件来龙去脉组织策略 | 第102-103页 |
| ·事件来龙去脉生成算法 | 第103-104页 |
| ·事件来龙去脉评测 | 第104-106页 |
| ·评测模型 | 第105页 |
| ·评测语料 | 第105-106页 |
| ·系统实现与结果分析 | 第106-109页 |
| ·系统实现 | 第106-108页 |
| ·单篇摘要的结果分析 | 第108页 |
| ·事件来龙去脉质量评价及结果分析 | 第108-109页 |
| ·小结 | 第109-111页 |
| 第六章 网络信息智能获取和处理系统——GHUNT | 第111-127页 |
| ·引言 | 第111-112页 |
| ·GHUNT总体功能框架及其体系结构 | 第112-115页 |
| ·信息获取过程管理 | 第115-120页 |
| ·GHunt中的元数据 | 第115-116页 |
| ·信息获取任务定义 | 第116页 |
| ·信息获取算法 | 第116-118页 |
| ·信息获取任务的建立 | 第118-119页 |
| ·信息获取任务的执行 | 第119-120页 |
| ·获取知识的管理 | 第120-121页 |
| ·信息获取实例及结果 | 第121-124页 |
| ·目录检索 | 第121-122页 |
| ·语义检索 | 第122页 |
| ·专题检索 | 第122-123页 |
| ·图文联合查询 | 第123-124页 |
| ·GHUNT系统特点及其应用 | 第124-126页 |
| ·中文搜索引擎市场 | 第124页 |
| ·GHunt的特点 | 第124-125页 |
| ·GHunt的应用之一——万方智能信息处理平台 | 第125-126页 |
| ·小结 | 第126-127页 |
| 第七章 结束语 | 第127-131页 |
| ·本文的总结 | 第127-129页 |
| ·前景和展望 | 第129-131页 |
| 参考文献 | 第131-141页 |
| 致谢 | 第141-142页 |
| 作者简历 | 第142页 |
| 攻读博士学位期间发表的主要论文 | 第142-143页 |
| 攻读博士学位期间参加的主要科研项目 | 第143页 |