Web信息挖掘的研究及应用
摘要 | 第1-5页 |
ABSTRACT | 第5-8页 |
第一章 绪论 | 第8-16页 |
·研究背景 | 第8-9页 |
·Web 信息抽取与挖掘的研究现状 | 第9-15页 |
·数据模型 | 第10-11页 |
·查询语言 | 第11-13页 |
·Web 文档页的数据抽取 | 第13-15页 |
·本文的主要工作 | 第15-16页 |
第二章 Web 信息挖掘系统的概要设计 | 第16-22页 |
·系统总体目标 | 第16页 |
·系统总体结构设计 | 第16-20页 |
·系统实施的技术路线 | 第20-21页 |
·本章小结 | 第21-22页 |
第三章 Web 信息挖掘系统的详细设计 | 第22-49页 |
·Web 文档的模型化设计 | 第22-26页 |
·问题分析 | 第23页 |
·表达树 | 第23-24页 |
·循环参考 | 第24-25页 |
·“弱于” | 第25-26页 |
·最小支持度MINISUP | 第26页 |
·文档记录分割及边界发现 | 第26-34页 |
·构造HTML 标志树 | 第27-30页 |
·数据记录边界发现方国设计 | 第30-34页 |
·Web 元数据抽取设计 | 第34-40页 |
·表的结构形式构建 | 第34-36页 |
·对象(标志)属性的作用 | 第36页 |
·规范化表的元数据抽取 | 第36-40页 |
·半结构化数据到关系数据的转换设计 | 第40-44页 |
·基本思路 | 第40-42页 |
·STORED 映射关系设计 | 第42-44页 |
·访问路径模式挖掘与用户兴趣主题发现 | 第44-48页 |
·识别一次会话(session) | 第46页 |
·路径遍历模式发现 | 第46-48页 |
·兴趣主题发现过程设计 | 第48页 |
·小结 | 第48-49页 |
第四章 Web 信息挖掘系统的实现 | 第49-67页 |
·OEM 文档模型的表示实现 | 第49-51页 |
·组合单个启发国行文档记录分割和边界发现 | 第51-56页 |
·确定性因子 | 第52页 |
·初始化实验 | 第52-54页 |
·组合启发规则 | 第54-56页 |
·Web 元数据抽取实现 | 第56-57页 |
·STORED 映射算国的实现 | 第57-59页 |
·访问路劲模式挖掘与用户兴趣主题发现的算国实现 | 第59-65页 |
·挖掘遍历模式算国的实现 | 第59-61页 |
·大参考序列算国的实现 | 第61-63页 |
·用户兴趣主题发现的实现 | 第63-65页 |
·小结 | 第65-67页 |
第五章 总结与展望 | 第67-69页 |
·全文总结 | 第67-68页 |
·展望 | 第68-69页 |
致谢 | 第69-70页 |
参考文献 | 第70-74页 |