| 1 引言 | 第1-13页 |
| ·课题目的 | 第8页 |
| ·国内外研究状况 | 第8-10页 |
| ·基于元数据的web信息提取的难点 | 第10-11页 |
| ·文本的表示形式 | 第10-11页 |
| ·元数据标准及内容的确定 | 第11页 |
| ·本文应用价值 | 第11页 |
| ·内容安排 | 第11-13页 |
| 2 相关理论 | 第13-19页 |
| ·元数据简介 | 第13-15页 |
| ·元数据定义 | 第13页 |
| ·web文本元数据的表示 | 第13-15页 |
| ·相关术语 | 第15-19页 |
| ·文本状态术语 | 第15-16页 |
| ·文本统计术语 | 第16页 |
| ·模糊论术语 | 第16-19页 |
| 3 语义性元数据项提取 | 第19-28页 |
| ·web页面分析 | 第19页 |
| ·web文本的表示 | 第19-21页 |
| ·文本段的表示 | 第19-20页 |
| ·文本句词的表示 | 第20页 |
| ·文本表示形式的实现 | 第20-21页 |
| ·简单语句向量空间的生成 | 第21-23页 |
| ·简单语句向量术语描述 | 第21-22页 |
| ·简单语句向量生成算法 | 第22-23页 |
| ·简单语句模糊相似矩阵的生成 | 第23-24页 |
| ·模糊相似矩阵相关术语描述 | 第23页 |
| ·模糊相似矩阵生成算法 | 第23-24页 |
| ·利用文本的矩阵表示提取语义性元数据项 | 第24-28页 |
| ·DC.title题目提取过程: | 第24页 |
| ·DC.creater作者提取过程: | 第24-25页 |
| ·DC.subject主题词提取过程: | 第25-26页 |
| ·DC.type体裁算法设计和实现 | 第26-28页 |
| 4 DC.description内容元数据项提取 | 第28-43页 |
| ·内容元数据项提取考虑以下几点 | 第28页 |
| ·本文内容元数据项的特点 | 第28-29页 |
| ·利用简单语句向量空间提取DC.description元数据项 | 第29-30页 |
| ·矩阵及模糊论相结合提取内容元数据项 | 第30-43页 |
| ·内容元数据项提取总原则 | 第30页 |
| ·冗长句处理 | 第30-31页 |
| ·冗长段处理 | 第31-37页 |
| ·DC.description填写 | 第37-43页 |
| 5 系统及实验 | 第43-48页 |
| ·系统框图 | 第43-44页 |
| ·试验方法及结果 | 第44-45页 |
| ·DC.description元数据项实验结果与分析 | 第45-46页 |
| ·平面聚类实验结果 | 第45-46页 |
| ·C_均值聚类实验结果与分析 | 第46页 |
| ·题材试验结果与分析 | 第46-48页 |
| 6 结束语与展望 | 第48-49页 |
| 致谢 | 第49-50页 |
| 参考文献 | 第50-52页 |
| 附录 | 第52页 |