基于XML的Web信息抽取技术研究
摘要 | 第1-7页 |
Abstract | 第7-10页 |
第1章 绪论 | 第10-14页 |
·研究背景及意义 | 第10页 |
·信息抽取的对象和任务 | 第10-11页 |
·信息抽取发展趋势 | 第11-12页 |
·研究工作的主要内容 | 第12页 |
·论文结构安排 | 第12-14页 |
第2章 理论基础 | 第14-28页 |
·Web信息抽取 | 第14-16页 |
·Web信息抽取技术分类 | 第14-15页 |
·Web信息抽取原理 | 第15页 |
·Web信息抽取存在的问题 | 第15-16页 |
·相关基本概念 | 第16-20页 |
·HTML | 第16页 |
·XML | 第16-18页 |
·DOM | 第18-20页 |
·XHTML | 第20页 |
·Web网页分块技术 | 第20-25页 |
·XML行业词汇表 | 第25-27页 |
·本章小结 | 第27-28页 |
第3章 Web网页预处理 | 第28-40页 |
·网页预处理 | 第28-29页 |
·基于标签的清洗算法 | 第29-35页 |
·清洗规则界定 | 第29-33页 |
·清洗算法定义 | 第33-35页 |
·结构化处理 | 第35-39页 |
·HTML结构化工具 | 第35-37页 |
·结构化处理过程 | 第37-39页 |
·DOM树解析 | 第39页 |
·本章小结 | 第39-40页 |
第4章 基于XML的二次权重信息抽取 | 第40-54页 |
·XTWIE的难点和目标 | 第40页 |
·XML主数据块的抽取 | 第40-47页 |
·主数据块的相关概念 | 第41-42页 |
·叶子路径相似度 | 第42-43页 |
·主数据块识别算法 | 第43-47页 |
·初始数据记录存储 | 第47页 |
·基于XML数据记录优化研究 | 第47-53页 |
·行业词汇对数据记录权值影响 | 第48-49页 |
·文字数量特征对数据记录权值影响 | 第49-50页 |
·对数据记录进行二次识别 | 第50-53页 |
·本章小结 | 第53-54页 |
第5章 实验与效果分析 | 第54-61页 |
·抽取系统评测标准 | 第54页 |
·实验结果与分析 | 第54-59页 |
·标签清洗效果分析 | 第56-57页 |
·主数据块抽取效果分析 | 第57-59页 |
·二次识别效果分析 | 第59页 |
·本章小结 | 第59-61页 |
结论 | 第61-62页 |
参考文献 | 第62-65页 |
攻读硕士学位期间发表的论文和取得的科研成果 | 第65-66页 |
致谢 | 第66-67页 |
摘要 | 第67-71页 |
Abstract | 第71-75页 |