Web信息智能获取若干关键问题研究

摘要	第1-7页
ABSTRACT	第7-9页
目录	第9-13页
第一章绪论	第13-37页
·WEB信息获取的研究意义	第13-14页
·相关研究综述	第14-30页
·Web信息采集	第15-18页
·Web信息采集面临的主要困难	第15-16页
·Web信息采集的类型	第16-18页
·Web信息抽取	第18-21页
·Web信息抽取的意义	第19页
·信息抽取与信息检索	第19-20页
·信息抽取任务的类型	第20-21页
·影响信息抽取技术的因素	第21页
·聚类分析	第21-27页
·数据表示	第22页
·聚类的标准或目标函数	第22-24页
·聚类的搜索算法	第24-25页
·常见聚类算法	第25-26页
·Web／文本聚类的特点和方法	第26-27页
·新闻相关研究	第27-30页
·网络新闻语料的选择原因	第28-29页
·新闻事件探测和跟踪	第29-30页
·多篇摘要	第30页
·研究内容	第30-31页
·WEB信息获取总体设计思路	第31-35页
·“数据决定策略”	第33页
·“需求决定策略”	第33-35页
·论文组织	第35-37页
第二章基于多主体的网络信息采集研究	第37-63页
·引言	第37-38页
·基于多主体的WEB信息采集模型	第38-43页
·体系结构	第39-41页
·主体实例模型	第41-42页
·主体内部运行机制	第42-43页
·专题跟踪采集模式	第43-50页
·Web主题页面的分布特点	第44-46页
·主题相关性计算模型	第46-50页
·基于链接关系及其链接深度的URL主题相关性计算模型	第46-47页
·基于HTML标记信息的主题相关性计算模型	第47-49页
·基于网页语义计算主题相关度	第49-50页
·噪音去除	第50-56页
·噪音数据存在形式及相关定义	第51页
·噪音数据的特点及其影响	第51-52页
·噪音数据去除策略	第52-56页
·基于HTML标记信息的噪音判别模型	第53-54页
·基于数据冗余的噪音数据判别模型	第54-55页
·基于标记文本信息熵的噪音数据判别模型	第55-56页
·系统实现及实验结果分析	第56-62页
·系统特点	第56-57页
·实验分析	第57-62页
·小结	第62-63页
第三章基于统计与规则方法相结合的新词发现	第63-79页
·引言	第63-64页
·系统结构及其相关概念	第64-67页
·系统体系结构及其工作流程	第65-66页
·相关概念	第66-67页
·统计模型	第67-72页
·“二元语法”统计模型	第68-69页
·统计垃级	第69-70页
·统计选词	第70-72页
·规则选词	第72-74页
·单字组合词规则	第72-73页
·多字组合词规则	第73-74页
·实验结果分析	第74-76页
·评价标准	第74-75页
·实验结果	第75-76页
·小结	第76-79页
第四章事件探测和追踪	第79-95页
·引言	第79-80页
·概念模型	第80-81页
·模型知识的设计和学习	第81-87页
·预处理过程和文档表示	第82-83页
·特征权重的计算	第82页
·文档特征选取	第82-83页
·时间知识的学习	第83-85页
·文档中与时间相关的信息	第84页
·时间学习算法	第84-85页
·事件模板知识的学习	第85-87页
·事件特征权值计算	第85-86页
·事件特征选择	第86页
·事件模板进化策略	第86-87页
·事件探测和追踪	第87-91页
·事件探测和追踪算法	第88页
·基于时间距离的相似度计算模型	第88-90页
·基于“类间距离”提高算法效率	第90-91页
·实验结果与讨论	第91-93页
·小结	第93-95页
第五章事件来龙去脉生成	第95-111页
·引言	第95-96页
·新闻报道的摘要生成	第96-100页
·摘要生成模型	第96-97页
·段落相似度计算模型	第97-99页
·文摘主题相关性判别及其润色	第99-100页
·事件来龙去脉的生成	第100-106页
·概念模型	第100-102页
·事件来龙去脉组织策略	第102-103页
·事件来龙去脉生成算法	第103-104页
·事件来龙去脉评测	第104-106页
·评测模型	第105页
·评测语料	第105-106页
·系统实现与结果分析	第106-109页
·系统实现	第106-108页
·单篇摘要的结果分析	第108页
·事件来龙去脉质量评价及结果分析	第108-109页
·小结	第109-111页
第六章网络信息智能获取和处理系统——GHUNT	第111-127页
·引言	第111-112页
·GHUNT总体功能框架及其体系结构	第112-115页
·信息获取过程管理	第115-120页
·GHunt中的元数据	第115-116页
·信息获取任务定义	第116页
·信息获取算法	第116-118页
·信息获取任务的建立	第118-119页
·信息获取任务的执行	第119-120页
·获取知识的管理	第120-121页
·信息获取实例及结果	第121-124页
·目录检索	第121-122页
·语义检索	第122页
·专题检索	第122-123页
·图文联合查询	第123-124页
·GHUNT系统特点及其应用	第124-126页
·中文搜索引擎市场	第124页
·GHunt的特点	第124-125页
·GHunt的应用之一——万方智能信息处理平台	第125-126页
·小结	第126-127页
第七章结束语	第127-131页
·本文的总结	第127-129页
·前景和展望	第129-131页
参考文献	第131-141页
致谢	第141-142页
作者简历	第142页
攻读博士学位期间发表的主要论文	第142-143页
攻读博士学位期间参加的主要科研项目	第143页