基于XML的Web信息抽取技术研究
| 摘要 | 第1-7页 |
| Abstract | 第7-10页 |
| 第1章 绪论 | 第10-14页 |
| ·研究背景及意义 | 第10页 |
| ·信息抽取的对象和任务 | 第10-11页 |
| ·信息抽取发展趋势 | 第11-12页 |
| ·研究工作的主要内容 | 第12页 |
| ·论文结构安排 | 第12-14页 |
| 第2章 理论基础 | 第14-28页 |
| ·Web信息抽取 | 第14-16页 |
| ·Web信息抽取技术分类 | 第14-15页 |
| ·Web信息抽取原理 | 第15页 |
| ·Web信息抽取存在的问题 | 第15-16页 |
| ·相关基本概念 | 第16-20页 |
| ·HTML | 第16页 |
| ·XML | 第16-18页 |
| ·DOM | 第18-20页 |
| ·XHTML | 第20页 |
| ·Web网页分块技术 | 第20-25页 |
| ·XML行业词汇表 | 第25-27页 |
| ·本章小结 | 第27-28页 |
| 第3章 Web网页预处理 | 第28-40页 |
| ·网页预处理 | 第28-29页 |
| ·基于标签的清洗算法 | 第29-35页 |
| ·清洗规则界定 | 第29-33页 |
| ·清洗算法定义 | 第33-35页 |
| ·结构化处理 | 第35-39页 |
| ·HTML结构化工具 | 第35-37页 |
| ·结构化处理过程 | 第37-39页 |
| ·DOM树解析 | 第39页 |
| ·本章小结 | 第39-40页 |
| 第4章 基于XML的二次权重信息抽取 | 第40-54页 |
| ·XTWIE的难点和目标 | 第40页 |
| ·XML主数据块的抽取 | 第40-47页 |
| ·主数据块的相关概念 | 第41-42页 |
| ·叶子路径相似度 | 第42-43页 |
| ·主数据块识别算法 | 第43-47页 |
| ·初始数据记录存储 | 第47页 |
| ·基于XML数据记录优化研究 | 第47-53页 |
| ·行业词汇对数据记录权值影响 | 第48-49页 |
| ·文字数量特征对数据记录权值影响 | 第49-50页 |
| ·对数据记录进行二次识别 | 第50-53页 |
| ·本章小结 | 第53-54页 |
| 第5章 实验与效果分析 | 第54-61页 |
| ·抽取系统评测标准 | 第54页 |
| ·实验结果与分析 | 第54-59页 |
| ·标签清洗效果分析 | 第56-57页 |
| ·主数据块抽取效果分析 | 第57-59页 |
| ·二次识别效果分析 | 第59页 |
| ·本章小结 | 第59-61页 |
| 结论 | 第61-62页 |
| 参考文献 | 第62-65页 |
| 攻读硕士学位期间发表的论文和取得的科研成果 | 第65-66页 |
| 致谢 | 第66-67页 |
| 摘要 | 第67-71页 |
| Abstract | 第71-75页 |