基于EM算法和DOM树的WEB信息抽取的研究

摘要	第1-6页
ABSTRACT	第6-10页
第1章绪论	第10-15页
·论文的研究背景及研究价值	第10-11页
·论文的背景介绍	第10-11页
·论文的研究价值	第11页
·国内外研究现状	第11-13页
·国外研究现状	第11-12页
·国内研究现状	第12-13页
·WEB信息抽取技术的发展趋势和目标	第13页
·本文的主要研究内容	第13-14页
·本文的章节安排	第14-15页
第2章信息抽取相关技术	第15-34页
·信息抽取	第15-17页
·信息抽取的概念	第15-16页
·信息抽取分类	第16-17页
·DOM树	第17-20页
·DOM树概念	第17-18页
·DOM树结构	第18-19页
·解析XML文档方法比较	第19-20页
·网页数据处理及相似度介绍	第20-25页
·网络爬虫	第20-21页
·HTML Parser技术	第21-24页
·网页相似度	第24-25页
·文本分类相关介绍	第25-27页
·文本分类的过程	第25-26页
·文本分词	第26页
·文本表示	第26-27页
·特征选择	第27页
·EM算法的相关理论	第27-33页
·贝叶斯分类	第28-31页
·基于GMM模型的EM算法基本思想	第31-33页
·本章小结	第33-34页
第3章基于EM算法和DOM树的WEB信息抽取算法	第34-51页
·基于DOM树的子树最优匹配算法	第34-36页
·相似度定义	第34-35页
·计算相似度步骤	第35-36页
·基于DOM树的中心节点和文本长度特征算法	第36-38页
·抽取文本分类的设计	第38-44页
·改进的TF-IDF	第39-40页
·文档向量模型化	第40-41页
·半监督式EM重构训练集算法	第41-44页
·各算法验证	第44-50页
·网页相似度计算	第44-46页
·基于DOM树的中心节点和文本长度特征算法结果分析	第46-48页
·半监督式EM重构训练集算法验证	第48-50页
·本章小节	第50-51页
第4章基于EM算法和DOM树的WEB信息抽取解决方案	第51-63页
·解决方案	第51-53页
·需求分析	第51-52页
·设计思路	第52-53页
·系统总体设计	第53-55页
·模块设计	第53-55页
·数据库设计	第55页
·系统模块详细设计和实现	第55-61页
·页面优化模块	第56-58页
·网页分类及规则学习模块	第58-60页
·文本分类模块	第60-61页
·系统结果验	第61-62页
·本章小结	第62-63页
第5章总结和展望	第63-65页
·论文总结	第63-64页
·论文展望	第64-65页
参考文献	第65-68页
致谢	第68页