摘要 | 第1-7页 |
ABSTRACT | 第7-9页 |
目录 | 第9-13页 |
第一章 绪论 | 第13-37页 |
·WEB信息获取的研究意义 | 第13-14页 |
·相关研究综述 | 第14-30页 |
·Web信息采集 | 第15-18页 |
·Web信息采集面临的主要困难 | 第15-16页 |
·Web信息采集的类型 | 第16-18页 |
·Web信息抽取 | 第18-21页 |
·Web信息抽取的意义 | 第19页 |
·信息抽取与信息检索 | 第19-20页 |
·信息抽取任务的类型 | 第20-21页 |
·影响信息抽取技术的因素 | 第21页 |
·聚类分析 | 第21-27页 |
·数据表示 | 第22页 |
·聚类的标准或目标函数 | 第22-24页 |
·聚类的搜索算法 | 第24-25页 |
·常见聚类算法 | 第25-26页 |
·Web/文本聚类的特点和方法 | 第26-27页 |
·新闻相关研究 | 第27-30页 |
·网络新闻语料的选择原因 | 第28-29页 |
·新闻事件探测和跟踪 | 第29-30页 |
·多篇摘要 | 第30页 |
·研究内容 | 第30-31页 |
·WEB信息获取总体设计思路 | 第31-35页 |
·“数据决定策略” | 第33页 |
·“需求决定策略” | 第33-35页 |
·论文组织 | 第35-37页 |
第二章 基于多主体的网络信息采集研究 | 第37-63页 |
·引言 | 第37-38页 |
·基于多主体的WEB信息采集模型 | 第38-43页 |
·体系结构 | 第39-41页 |
·主体实例模型 | 第41-42页 |
·主体内部运行机制 | 第42-43页 |
·专题跟踪采集模式 | 第43-50页 |
·Web主题页面的分布特点 | 第44-46页 |
·主题相关性计算模型 | 第46-50页 |
·基于链接关系及其链接深度的URL主题相关性计算模型 | 第46-47页 |
·基于HTML标记信息的主题相关性计算模型 | 第47-49页 |
·基于网页语义计算主题相关度 | 第49-50页 |
·噪音去除 | 第50-56页 |
·噪音数据存在形式及相关定义 | 第51页 |
·噪音数据的特点及其影响 | 第51-52页 |
·噪音数据去除策略 | 第52-56页 |
·基于HTML标记信息的噪音判别模型 | 第53-54页 |
·基于数据冗余的噪音数据判别模型 | 第54-55页 |
·基于标记文本信息熵的噪音数据判别模型 | 第55-56页 |
·系统实现及实验结果分析 | 第56-62页 |
·系统特点 | 第56-57页 |
·实验分析 | 第57-62页 |
·小结 | 第62-63页 |
第三章 基于统计与规则方法相结合的新词发现 | 第63-79页 |
·引言 | 第63-64页 |
·系统结构及其相关概念 | 第64-67页 |
·系统体系结构及其工作流程 | 第65-66页 |
·相关概念 | 第66-67页 |
·统计模型 | 第67-72页 |
·“二元语法”统计模型 | 第68-69页 |
·统计垃级 | 第69-70页 |
·统计选词 | 第70-72页 |
·规则选词 | 第72-74页 |
·单字组合词规则 | 第72-73页 |
·多字组合词规则 | 第73-74页 |
·实验结果分析 | 第74-76页 |
·评价标准 | 第74-75页 |
·实验结果 | 第75-76页 |
·小结 | 第76-79页 |
第四章 事件探测和追踪 | 第79-95页 |
·引言 | 第79-80页 |
·概念模型 | 第80-81页 |
·模型知识的设计和学习 | 第81-87页 |
·预处理过程和文档表示 | 第82-83页 |
·特征权重的计算 | 第82页 |
·文档特征选取 | 第82-83页 |
·时间知识的学习 | 第83-85页 |
·文档中与时间相关的信息 | 第84页 |
·时间学习算法 | 第84-85页 |
·事件模板知识的学习 | 第85-87页 |
·事件特征权值计算 | 第85-86页 |
·事件特征选择 | 第86页 |
·事件模板进化策略 | 第86-87页 |
·事件探测和追踪 | 第87-91页 |
·事件探测和追踪算法 | 第88页 |
·基于时间距离的相似度计算模型 | 第88-90页 |
·基于“类间距离”提高算法效率 | 第90-91页 |
·实验结果与讨论 | 第91-93页 |
·小结 | 第93-95页 |
第五章 事件来龙去脉生成 | 第95-111页 |
·引言 | 第95-96页 |
·新闻报道的摘要生成 | 第96-100页 |
·摘要生成模型 | 第96-97页 |
·段落相似度计算模型 | 第97-99页 |
·文摘主题相关性判别及其润色 | 第99-100页 |
·事件来龙去脉的生成 | 第100-106页 |
·概念模型 | 第100-102页 |
·事件来龙去脉组织策略 | 第102-103页 |
·事件来龙去脉生成算法 | 第103-104页 |
·事件来龙去脉评测 | 第104-106页 |
·评测模型 | 第105页 |
·评测语料 | 第105-106页 |
·系统实现与结果分析 | 第106-109页 |
·系统实现 | 第106-108页 |
·单篇摘要的结果分析 | 第108页 |
·事件来龙去脉质量评价及结果分析 | 第108-109页 |
·小结 | 第109-111页 |
第六章 网络信息智能获取和处理系统——GHUNT | 第111-127页 |
·引言 | 第111-112页 |
·GHUNT总体功能框架及其体系结构 | 第112-115页 |
·信息获取过程管理 | 第115-120页 |
·GHunt中的元数据 | 第115-116页 |
·信息获取任务定义 | 第116页 |
·信息获取算法 | 第116-118页 |
·信息获取任务的建立 | 第118-119页 |
·信息获取任务的执行 | 第119-120页 |
·获取知识的管理 | 第120-121页 |
·信息获取实例及结果 | 第121-124页 |
·目录检索 | 第121-122页 |
·语义检索 | 第122页 |
·专题检索 | 第122-123页 |
·图文联合查询 | 第123-124页 |
·GHUNT系统特点及其应用 | 第124-126页 |
·中文搜索引擎市场 | 第124页 |
·GHunt的特点 | 第124-125页 |
·GHunt的应用之一——万方智能信息处理平台 | 第125-126页 |
·小结 | 第126-127页 |
第七章 结束语 | 第127-131页 |
·本文的总结 | 第127-129页 |
·前景和展望 | 第129-131页 |
参考文献 | 第131-141页 |
致谢 | 第141-142页 |
作者简历 | 第142页 |
攻读博士学位期间发表的主要论文 | 第142-143页 |
攻读博士学位期间参加的主要科研项目 | 第143页 |