| 摘要 | 第1-5页 |
| Abstract | 第5-8页 |
| 第1章 绪论 | 第8-14页 |
| ·研究背景及研究意义 | 第8-9页 |
| ·国内外研究现状 | 第9-12页 |
| ·基于自然语言处理方式的信息抽取 | 第9-10页 |
| ·基于包装器归纳方式的信息抽取 | 第10-11页 |
| ·基于人工本体方式的信息抽取 | 第11页 |
| ·基于HTML 结构分析方式的信息抽取 | 第11页 |
| ·基于隐马尔可夫模型方式的信息抽取 | 第11-12页 |
| ·基于自定义Web 查询方式的信息抽取 | 第12页 |
| ·本论文的研究内容 | 第12-13页 |
| ·本论文的内容组织 | 第13-14页 |
| 第2章 相关背景知识介绍 | 第14-25页 |
| ·Web 页面半结构化特点 | 第14页 |
| ·信息检索及信息抽取 | 第14-16页 |
| ·Web 信息抽取 | 第16-18页 |
| ·Web 信息抽取中应用的网页技术标准 | 第18-22页 |
| ·HTML | 第18-19页 |
| ·XML | 第19-21页 |
| ·XHTML | 第21-22页 |
| ·DOM | 第22页 |
| ·k-means 聚簇方法 | 第22-24页 |
| ·本章小结 | 第24-25页 |
| 第3章 社会媒体网页内容的分割与主题频繁簇的抽取系统设计 | 第25-33页 |
| ·概述 | 第25页 |
| ·整体研究思路 | 第25-28页 |
| ·系统总体流程图 | 第28页 |
| ·社会媒体网页内容分割与主题频繁簇的抽取算法 | 第28-32页 |
| ·社会媒体页面的收集 | 第28-29页 |
| ·社会媒体页面的预处理 | 第29-30页 |
| ·频繁块的识别 | 第30页 |
| ·主题频繁簇的识别 | 第30-31页 |
| ·抽取规则的生成 | 第31-32页 |
| ·本章小结 | 第32-33页 |
| 第4章 社会媒体网页内容的分割与主题频繁簇的抽取系统实现 | 第33-46页 |
| ·概述 | 第33页 |
| ·社会媒体页面的收集 | 第33页 |
| ·社会媒体页面的预处理 | 第33-36页 |
| ·文档清理 | 第34-35页 |
| ·文档解析 | 第35-36页 |
| ·社会媒体页面内容的分割 | 第36-39页 |
| ·频繁块的识别 | 第36-39页 |
| ·主题频繁簇的识别 | 第39页 |
| ·抽取规则的生成 | 第39-42页 |
| ·信息抽取 | 第42-43页 |
| ·实验结果与分析 | 第43-45页 |
| ·实验数据 | 第43-44页 |
| ·主题频繁簇中频繁块识别的实验结果与分析 | 第44页 |
| ·抽取规则生成的实验结果与分析 | 第44-45页 |
| ·本章小结 | 第45-46页 |
| 第5章 结论和展望 | 第46-48页 |
| ·结论 | 第46-47页 |
| ·展望 | 第47-48页 |
| 参考文献 | 第48-51页 |
| 致谢 | 第51-52页 |
| 附录A (攻读硕士学位期间参与的项目及投发的论文) | 第52页 |