基于XML的Web信息抽取技术研究

摘要	第1-7页
Abstract	第7-10页
第1章绪论	第10-14页
·研究背景及意义	第10页
·信息抽取的对象和任务	第10-11页
·信息抽取发展趋势	第11-12页
·研究工作的主要内容	第12页
·论文结构安排	第12-14页
第2章理论基础	第14-28页
·Web信息抽取	第14-16页
·Web信息抽取技术分类	第14-15页
·Web信息抽取原理	第15页
·Web信息抽取存在的问题	第15-16页
·相关基本概念	第16-20页
·HTML	第16页
·XML	第16-18页
·DOM	第18-20页
·XHTML	第20页
·Web网页分块技术	第20-25页
·XML行业词汇表	第25-27页
·本章小结	第27-28页
第3章 Web网页预处理	第28-40页
·网页预处理	第28-29页
·基于标签的清洗算法	第29-35页
·清洗规则界定	第29-33页
·清洗算法定义	第33-35页
·结构化处理	第35-39页
·HTML结构化工具	第35-37页
·结构化处理过程	第37-39页
·DOM树解析	第39页
·本章小结	第39-40页
第4章基于XML的二次权重信息抽取	第40-54页
·XTWIE的难点和目标	第40页
·XML主数据块的抽取	第40-47页
·主数据块的相关概念	第41-42页
·叶子路径相似度	第42-43页
·主数据块识别算法	第43-47页
·初始数据记录存储	第47页
·基于XML数据记录优化研究	第47-53页
·行业词汇对数据记录权值影响	第48-49页
·文字数量特征对数据记录权值影响	第49-50页
·对数据记录进行二次识别	第50-53页
·本章小结	第53-54页
第5章实验与效果分析	第54-61页
·抽取系统评测标准	第54页
·实验结果与分析	第54-59页
·标签清洗效果分析	第56-57页
·主数据块抽取效果分析	第57-59页
·二次识别效果分析	第59页
·本章小结	第59-61页
结论	第61-62页
参考文献	第62-65页
攻读硕士学位期间发表的论文和取得的科研成果	第65-66页
致谢	第66-67页
摘要	第67-71页
Abstract	第71-75页