社会媒体网页内容分割与主题频繁簇的抽取

摘要	第1-5页
Abstract	第5-8页
第1章绪论	第8-14页
·研究背景及研究意义	第8-9页
·国内外研究现状	第9-12页
·基于自然语言处理方式的信息抽取	第9-10页
·基于包装器归纳方式的信息抽取	第10-11页
·基于人工本体方式的信息抽取	第11页
·基于HTML 结构分析方式的信息抽取	第11页
·基于隐马尔可夫模型方式的信息抽取	第11-12页
·基于自定义Web 查询方式的信息抽取	第12页
·本论文的研究内容	第12-13页
·本论文的内容组织	第13-14页
第2章相关背景知识介绍	第14-25页
·Web 页面半结构化特点	第14页
·信息检索及信息抽取	第14-16页
·Web 信息抽取	第16-18页
·Web 信息抽取中应用的网页技术标准	第18-22页
·HTML	第18-19页
·XML	第19-21页
·XHTML	第21-22页
·DOM	第22页
·k-means 聚簇方法	第22-24页
·本章小结	第24-25页
第3章社会媒体网页内容的分割与主题频繁簇的抽取系统设计	第25-33页
·概述	第25页
·整体研究思路	第25-28页
·系统总体流程图	第28页
·社会媒体网页内容分割与主题频繁簇的抽取算法	第28-32页
·社会媒体页面的收集	第28-29页
·社会媒体页面的预处理	第29-30页
·频繁块的识别	第30页
·主题频繁簇的识别	第30-31页
·抽取规则的生成	第31-32页
·本章小结	第32-33页
第4章社会媒体网页内容的分割与主题频繁簇的抽取系统实现	第33-46页
·概述	第33页
·社会媒体页面的收集	第33页
·社会媒体页面的预处理	第33-36页
·文档清理	第34-35页
·文档解析	第35-36页
·社会媒体页面内容的分割	第36-39页
·频繁块的识别	第36-39页
·主题频繁簇的识别	第39页
·抽取规则的生成	第39-42页
·信息抽取	第42-43页
·实验结果与分析	第43-45页
·实验数据	第43-44页
·主题频繁簇中频繁块识别的实验结果与分析	第44页
·抽取规则生成的实验结果与分析	第44-45页
·本章小结	第45-46页
第5章结论和展望	第46-48页
·结论	第46-47页
·展望	第47-48页
参考文献	第48-51页
致谢	第51-52页
附录A (攻读硕士学位期间参与的项目及投发的论文)	第52页