面向智能信息检索的Web挖掘关键技术研究
| 声明 | 第1-4页 |
| 摘要 | 第4-6页 |
| Abstract | 第6-13页 |
| 第一章 前言 | 第13-22页 |
| ·问题提出 | 第13页 |
| ·智能信息检索 | 第13-16页 |
| ·基于概念的信息检索 | 第15页 |
| ·个性化服务 | 第15页 |
| ·信息的合理分类/聚类 | 第15-16页 |
| ·Web挖掘技术及其对智能信息检索的支持 | 第16-20页 |
| ·数据挖掘 | 第16-17页 |
| ·Web挖掘 | 第17-19页 |
| ·分类/聚类对智能信息检索的支持 | 第19-20页 |
| ·本文的组织 | 第20-22页 |
| 第二章 相关概念与技术 | 第22-34页 |
| ·分类/聚类概述 | 第22-23页 |
| ·样本类型及相似性度量 | 第23-26页 |
| ·样本类型 | 第23-24页 |
| ·相似性度量 | 第24-26页 |
| ·聚类分析 | 第26-29页 |
| ·聚类分析步骤 | 第26-27页 |
| ·几种常用的聚类策略 | 第27-28页 |
| ·类的定义 | 第28-29页 |
| ·本体介绍 | 第29-34页 |
| ·构造本体的准则 | 第30页 |
| ·本体方法学 | 第30-31页 |
| ·本体的描述语言 | 第31-32页 |
| ·本体的分类 | 第32-33页 |
| ·本体的应用 | 第33-34页 |
| 第三章 支持信息检索的数据预处理技术 | 第34-59页 |
| ·问题提出 | 第34页 |
| ·基于PDF文件的信息抽取 | 第34-45页 |
| ·信息抽取过程 | 第34-35页 |
| ·PDF文件解析 | 第35-36页 |
| ·PDF文件的物理结构 | 第36页 |
| ·PDF文件的逻辑结构 | 第36页 |
| ·PDF文件解析器 | 第36页 |
| ·格式标签注入 | 第36-38页 |
| ·标签预处理 | 第38页 |
| ·规则库 | 第38-41页 |
| ·信息抽取规则与限定词库 | 第38-40页 |
| ·标签一致性判定规则和冗余标签判定规则 | 第40-41页 |
| ·模式匹配 | 第41-43页 |
| ·实验分析 | 第43-45页 |
| ·实验分析一 | 第43-44页 |
| ·实验分析二 | 第44-45页 |
| ·基于渐进式丰富词典的中文分词方法 | 第45-50页 |
| ·中文分词方法 | 第45-47页 |
| ·基于词典的分词方法 | 第45-46页 |
| ·基于统计的分词方法 | 第46-47页 |
| ·基于人工智能的分词方法 | 第47页 |
| ·渐进式丰富词典 | 第47-50页 |
| ·基本思路 | 第47-48页 |
| ·分词算法 | 第48-49页 |
| ·实验分析 | 第49-50页 |
| ·Web日志预处理 | 第50-58页 |
| ·Web数据源 | 第50-51页 |
| ·Web日志数据的特点 | 第51-52页 |
| ·HTTP协议对数据的影响 | 第51-52页 |
| ·缓存导致的信息丢失 | 第52页 |
| ·其它原因导致的数据不准确性 | 第52页 |
| ·Web日志数据预处理过程及实现 | 第52-58页 |
| ·数据清洗 | 第53-54页 |
| ·用户识别 | 第54页 |
| ·会话识别 | 第54-56页 |
| ·路径补充 | 第56-58页 |
| ·本章小结 | 第58-59页 |
| 第四章 中文页面与Web用户分类技术 | 第59-91页 |
| ·问题提出 | 第59页 |
| ·常用分类方法 | 第59-61页 |
| ·朴素贝叶斯方法 | 第59-60页 |
| ·k-近邻方法 | 第60页 |
| ·决策树方法 | 第60页 |
| ·支持向量机方法 | 第60-61页 |
| ·维数约减方法 | 第61-64页 |
| ·改进的基于k近邻的中文文本分类方法 | 第64-82页 |
| ·k-近邻方法的分类过程及改进思路 | 第64-65页 |
| ·训练样本集的约减 | 第65-70页 |
| ·基本思路 | 第65-66页 |
| ·约减算法 | 第66-67页 |
| ·实验分析 | 第67-70页 |
| ·渐进式分类模式 | 第70-72页 |
| ·基本思想 | 第70-71页 |
| ·实验分析 | 第71-72页 |
| ·基于本体的语义理解 | 第72-79页 |
| ·基本思路 | 第72-75页 |
| ·实验分析 | 第75-79页 |
| ·基于遗传算法的k值学习 | 第79-82页 |
| ·基本思路 | 第79页 |
| ·学习k值的遗传算法 | 第79-80页 |
| ·选择染色体的方法 | 第80-81页 |
| ·杂交变异并形成新一代染色体 | 第81页 |
| ·实验分析 | 第81-82页 |
| ·基于神经网络的Web用户分类 | 第82-90页 |
| ·神经网络概述 | 第83页 |
| ·神经网络学习规则 | 第83-85页 |
| ·Hebb型学习 | 第84页 |
| ·误差修正学习 | 第84-85页 |
| ·竞争型学习 | 第85页 |
| ·随机型学习 | 第85页 |
| ·前馈型神经网络 | 第85-90页 |
| ·网络结构 | 第85-86页 |
| ·数据规格化 | 第86页 |
| ·误差函数 | 第86-89页 |
| ·实验分析 | 第89-90页 |
| ·本章小结 | 第90-91页 |
| 第五章 面向页面和用户聚类的聚类分析技术 | 第91-106页 |
| ·问题提出 | 第91页 |
| ·主要聚类方法 | 第91-95页 |
| ·划分方法 | 第91-93页 |
| ·层次方法 | 第93-94页 |
| ·局部方法 | 第94页 |
| ·模型方法 | 第94-95页 |
| ·对k-means算法的改进 | 第95-99页 |
| ·k-means算法的一般过程 | 第95-96页 |
| ·k-means改进算法的思想 | 第96-97页 |
| ·改进的初始聚类中心选择算法 | 第97-98页 |
| ·实验分析 | 第98-99页 |
| ·DBSCAN改进算法 | 第99-105页 |
| ·基本概念 | 第99-100页 |
| ·DBSCAN算法 | 第100页 |
| ·对DBSCAN算法的改进思路 | 第100-102页 |
| ·MinPts的确定 | 第102页 |
| ·Eps的确定 | 第102页 |
| ·实验分析 | 第102-105页 |
| ·本章小结 | 第105-106页 |
| 第六章 智能信息检索系统原型 | 第106-123页 |
| ·问题提出 | 第106页 |
| ·个性化服务 | 第106-108页 |
| ·个性化服务的定义 | 第106-107页 |
| ·个性化服务系统的分类 | 第107-108页 |
| ·基于规则的系统 | 第107-108页 |
| ·基于内容过滤的系统 | 第108页 |
| ·协作过滤系统 | 第108页 |
| ·个性化服务的实现 | 第108-113页 |
| ·收集用户访问信息 | 第109页 |
| ·用户建模 | 第109-111页 |
| ·手工建模 | 第110页 |
| ·示例建模 | 第110-111页 |
| ·自动建模 | 第111页 |
| ·个性化推荐 | 第111-113页 |
| ·基于规则的推荐技术 | 第111-112页 |
| ·基于内容过滤的推荐技术 | 第112页 |
| ·基于协作过滤的推荐技术 | 第112-113页 |
| ·基于概念的信息检索 | 第113-114页 |
| ·智能信息检索系统原型的设计与实现 | 第114-122页 |
| ·系统结构 | 第114-115页 |
| ·数据准备 | 第115页 |
| ·用户访问信息的收集 | 第115-116页 |
| ·用户访问信息 | 第115页 |
| ·用户访问信息的收集 | 第115-116页 |
| ·建立用户模型 | 第116-117页 |
| ·综合用户建模方式 | 第116页 |
| ·用户页面兴趣度 | 第116-117页 |
| ·个性化推荐 | 第117-121页 |
| ·基于内容过滤的个性化推荐 | 第117-118页 |
| ·基于规则的个性化推荐 | 第118页 |
| ·基于协作过滤的个性化推荐 | 第118页 |
| ·专家推荐 | 第118-119页 |
| ·个性化服务实例 | 第119-121页 |
| ·概念检索的实现 | 第121-122页 |
| ·概念处理 | 第121页 |
| ·概念检索实例 | 第121-122页 |
| ·本章小结 | 第122-123页 |
| 第七章 总结与展望 | 第123-125页 |
| ·总结 | 第123-124页 |
| ·进一步工作 | 第124-125页 |
| 参考文献 | 第125-137页 |
| 致谢 | 第137-138页 |
| 攻博期间发表的文章 | 第138-139页 |
| 攻博期间参加和完成的科研项目 | 第139-140页 |
| 作者简介 | 第140页 |