对Web网页的信息提取技术的研究

第一章绪论	第1-10页
1．1 课题的来源	第6页
1．2 网页信息提取问题的提出	第6页
1．3 信息提取与多WEB数据库集成	第6-9页
1．2．1 多Web数据库集成的提出	第6-7页
1．2．2 多Web数据库集成的基本结构	第7-8页
1．2．3 多Web数据库合成所要解决的问题	第8-9页
1．4 论文的工作与内容	第9-10页
第二章基于WEB数据库的数据源分析	第10-16页
2．1 数据库系统的结构	第10-13页
2．1．1 Client/Server结构的数据库系统	第10-11页
2．1．2 多层Client/Server计算	第11页
2．1．3 Web数据库	第11-13页
2．2 访问WEB数据库的多种方法	第13-16页
2．2．1 CGI公共网关接口	第13-14页
2．2．2 INTERNET数据库连接器IDC	第14页
2．2．3 JAVA/JDBC语言编程	第14页
2．2．4 动态服务器页面ASP	第14-16页
第三章标记语言语法结构分析	第16-22页
3．1 标记语言简介	第16-19页
3．1．1 SMGL	第16-17页
3．1．2 HTML	第17-18页
3．1．3 XML	第18页
3．1．4 VRML	第18-19页
3．1．5 WML	第19页
3．2 SGML、HTML、XML之间的关系	第19-20页
3．3 关于HTML的语言结构分析	第20-22页
第四章对WEB网页的信息提取技术	第22-38页
4．1 基于HTML的WEB网页信息提取方法	第22-23页
4．2 采用OEM方式进行网页信息提取	第23-30页
4．2．1 OEM数据模型介绍	第24-25页
4．2．2 识别段标题	第25-26页
4．2．3 确定页面初步层次结构	第26页
4．2．4 数据抽取格式的描述	第26-28页
4．2．5 抽取算法实现	第28-29页
4．2．6 抽取算法测试	第29-30页
4．2．7 需要改进的地方	第30页
4．3 对半结构化数据的局部模式提取	第30-36页
4．3．1 半结构化信息源的语义网络结构	第31-33页
4．3．2 局部模式提取方法	第33-36页
4．4 基于XML的WEB网页信息提取	第36-38页
第五章抽取工具DIWD_EXTRACTOR的实现	第38-41页
5．1 DIWD_EXTRACTOR工具简述	第38页
5．2 数据库分析	第38-39页
5．3 DIWD_EXTRACTOR的系统设计	第39-41页
第六章结束语	第41-42页
感谢	第42-43页
参考文献	第43-45页
附录	第45页