首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

中文Blog网页识别与内容抽取研究

摘要第1-5页
Abstract第5-9页
第1章 绪论第9-17页
   ·课题背景及意义第9-11页
     ·Blog的定义第9页
     ·Blog的发展第9-10页
     ·国内Blog的发展和前景第10页
     ·Blog的信息挖掘第10-11页
     ·Blog规范第11页
   ·国内外相关研究综述第11-16页
     ·Blog的国内外研究第12-13页
     ·Web数据挖掘第13页
     ·Web信息抽取第13-16页
   ·本文的主要内容及组织第16-17页
第2章 Web网页与Blog网页分析第17-28页
   ·Web网页分析第17-19页
     ·DocView模型第17-18页
     ·半结构化数据第18-19页
   ·Blog网页分析第19-22页
     ·Blog页面结构特点分析第19-21页
     ·Blog内容特征分析第21-22页
   ·网页识别第22-24页
     ·利用机器学习进行网页识别的方法第22-23页
     ·Gain特征提取方法第23-24页
   ·Web网页信息抽取技术第24-26页
     ·基于归纳学习的信息抽取技术第24-25页
     ·基于自定义查询语言的信息抽取技术第25页
     ·基于模式匹配的信息抽取技术第25-26页
     ·基于隐马尔科夫的信息抽取技术第26页
   ·Web网页内容获取第26-27页
   ·网页编码转换第27页
   ·本章小结第27-28页
第3章 Blog网页识别第28-38页
   ·Blog网页分类与识别第28-32页
     ·广义Blog网页识别第29-32页
     ·狭义Blog网页识别第32页
   ·Blog导航类网页的过滤第32-33页
   ·Blog网页相似度计算方法第33-37页
     ·Blog网页结构相似度的计算方法第34-35页
     ·Blog网页关键词相关度的计算方法第35-36页
     ·Blog网页结构和关键词特征的提取第36-37页
   ·本章小结第37-38页
第4章 Blog网页内容抽取第38-45页
   ·Blog网页预处理第38-39页
   ·Blog日志正文抽取第39-41页
     ·HTML噪声标签过滤第39页
     ·原始网页的过滤划分第39-41页
   ·评论内容抽取第41-42页
   ·评论人数和评论数抽取第42-43页
   ·标题获取第43-44页
   ·本章小结第44-45页
第5章 系统实现与实验结果分析第45-51页
   ·系统设计与实现第45-46页
     ·开发平台及工具第45-46页
     ·评测方法第46页
   ·Blog导航网页去除实验结果及分析第46-48页
   ·网页内容抽取实验结果及分析第48-50页
   ·本章小结第50-51页
结论第51-52页
参考文献第52-56页
攻读学位期间发表的学术论文第56-58页
致谢第58页

论文共58页,点击 下载论文
上一篇:自密实混凝土增大截面法加固轴心受压柱的研究与应用
下一篇:铸钢件砂型铸造模具参数CAD软件开发