中文Blog网页识别与内容抽取研究

摘要	第1-5页
Abstract	第5-9页
第1章绪论	第9-17页
·课题背景及意义	第9-11页
·Blog的定义	第9页
·Blog的发展	第9-10页
·国内Blog的发展和前景	第10页
·Blog的信息挖掘	第10-11页
·Blog规范	第11页
·国内外相关研究综述	第11-16页
·Blog的国内外研究	第12-13页
·Web数据挖掘	第13页
·Web信息抽取	第13-16页
·本文的主要内容及组织	第16-17页
第2章 Web网页与Blog网页分析	第17-28页
·Web网页分析	第17-19页
·DocView模型	第17-18页
·半结构化数据	第18-19页
·Blog网页分析	第19-22页
·Blog页面结构特点分析	第19-21页
·Blog内容特征分析	第21-22页
·网页识别	第22-24页
·利用机器学习进行网页识别的方法	第22-23页
·Gain特征提取方法	第23-24页
·Web网页信息抽取技术	第24-26页
·基于归纳学习的信息抽取技术	第24-25页
·基于自定义查询语言的信息抽取技术	第25页
·基于模式匹配的信息抽取技术	第25-26页
·基于隐马尔科夫的信息抽取技术	第26页
·Web网页内容获取	第26-27页
·网页编码转换	第27页
·本章小结	第27-28页
第3章 Blog网页识别	第28-38页
·Blog网页分类与识别	第28-32页
·广义Blog网页识别	第29-32页
·狭义Blog网页识别	第32页
·Blog导航类网页的过滤	第32-33页
·Blog网页相似度计算方法	第33-37页
·Blog网页结构相似度的计算方法	第34-35页
·Blog网页关键词相关度的计算方法	第35-36页
·Blog网页结构和关键词特征的提取	第36-37页
·本章小结	第37-38页
第4章 Blog网页内容抽取	第38-45页
·Blog网页预处理	第38-39页
·Blog日志正文抽取	第39-41页
·HTML噪声标签过滤	第39页
·原始网页的过滤划分	第39-41页
·评论内容抽取	第41-42页
·评论人数和评论数抽取	第42-43页
·标题获取	第43-44页
·本章小结	第44-45页
第5章系统实现与实验结果分析	第45-51页
·系统设计与实现	第45-46页
·开发平台及工具	第45-46页
·评测方法	第46页
·Blog导航网页去除实验结果及分析	第46-48页
·网页内容抽取实验结果及分析	第48-50页
·本章小结	第50-51页
结论	第51-52页
参考文献	第52-56页
攻读学位期间发表的学术论文	第56-58页
致谢	第58页