一种模式发现算法及其Web信息抽取应用

摘要	第1-4页
Abstract	第4-6页
目录	第6-8页
1 绪论	第8-12页
·选题背景	第8页
·国内外相关技术发展与研究现状	第8-10页
·本论文的主要研究内容	第10页
·论文结构安排	第10-12页
2 Web信息抽取技术概述	第12-17页
·Web信息抽取技术	第12页
·Web信息抽取分类	第12-15页
·信息抽取技术的主要任务	第15-17页
3 相关技术	第17-27页
·HTML(Hyper Text Markup Language)	第17-19页
·XML	第19-20页
·XHTML	第20-21页
·DOM(Document Object Model)	第21-22页
·XPath(XML Path Language)	第22-23页
·HTTP超文本传输协议	第23-24页
·代理	第24-25页
·HTTPClient	第25-27页
4 模式发现算法和抽取规则获取	第27-49页
·模式发现的经典算法	第27-32页
·后缀树和后缀树算法	第32-36页
·重复模式发现算法	第36-43页
·HTML页面重复模式发现的过程	第43-45页
·信息抽取规则	第45-48页
·实验分析	第48-49页
5 陶瓷行业商品信息抽取系统	第49-65页
·抽取器的整体设计	第49-50页
·抽取的流程	第50页
·Web浏览器	第50-51页
·抽取规则产生模块	第51-52页
·网络蜘蛛模块	第52-56页
·数据抽取模块	第56-57页
·数据集成模块	第57-61页
·系统配置和管理模块	第61-65页
6 总结与展望	第65-67页
·研究成果	第65页
·创新点	第65-66页
·存在的不足及今后进一步研究内容	第66-67页
致谢	第67-68页
参考文献	第68-71页
附录A:硕士期间发表的论文	第71页