首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于网页结构的信息抽取关键技术研究

摘要第1-6页
Abstract第6-10页
第一章 绪论第10-17页
   ·研究背景和意义第10-11页
   ·国内外研究现状第11-14页
     ·搜索引擎研究现状第11-12页
     ·Web信息抽取现状第12-14页
   ·木棉检索系统第14-15页
   ·论文工作内容第15页
   ·论文结构第15-17页
第二章 搜索引擎与网页分块相关技术第17-31页
   ·搜索引擎基本组成第17-20页
     ·采集器第17-18页
     ·分析器第18-19页
     ·索引器第19页
     ·检索器第19页
     ·用户接口第19-20页
   ·索引技术第20-24页
     ·倒排索引简介第20-21页
     ·lucene索引结构第21-24页
   ·网页基础第24-28页
     ·HTML第24页
     ·DOM第24-28页
   ·网页分块方法第28-30页
     ·基于视觉的网页分块方法第28-29页
     ·CTPVS分块方法第29-30页
   ·本章小结第30-31页
第三章 基于网页结构的分块方法第31-40页
   ·网页预处理第31-32页
   ·网页分块特征第32-33页
   ·木棉系统现有分块方法第33-36页
   ·新分块方法设计第36-39页
   ·本章小结第39-40页
第四章 网页信息提取方法第40-55页
   ·网页类型分类第40-42页
     ·主题型网页第40-42页
     ·非主题型网页第42页
   ·网页信息提取方法的设计第42-45页
     ·校内网页信息第43-44页
     ·网页分块及识别第44-45页
   ·主题型网页信息抽取第45-54页
     ·网页标题第46-48页
     ·发布时间第48-50页
     ·主题文本第50-51页
     ·描述图片第51-54页
   ·本章小结第54-55页
第五章 信息抽取实验第55-70页
   ·实验目的第55页
   ·实验数据第55-56页
     ·校内网页数据集第55-56页
     ·互联网网页数据集第56页
   ·实验设计及结果分析第56-69页
     ·网页性质测试第57-63页
     ·分块方法性能对比第63-66页
     ·信息抽取应用结果第66-69页
   ·本章小结第69-70页
总结与展望第70-73页
参考文献第73-77页
攻读硕士学位期间取得的研究成果第77-78页
致谢第78页

论文共78页,点击 下载论文
上一篇:高速IPv6数据包捕获与协议还原技术的研究与实现
下一篇:统一身份管理在高校门户系统中的设计与应用