首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于标签分析的网页正文提取技术研究

中文摘要第1-4页
英文摘要第4-8页
1 绪论第8-14页
   ·选题背景与研究意义第8-9页
   ·网页正文提取研究现状第9-12页
     ·国内外网页正文提取的现状第9-11页
     ·选题意义及改进思路第11-12页
   ·论文组织结构第12-13页
   ·本章小结第13-14页
2 八大网站中网页的基本特征及结构分析第14-28页
   ·HTML 语法分析第14-19页
     ·HTML 简介第14-19页
     ·HTML 结构分析第19页
   ·XML 语法分析第19-21页
     ·XML 简介第19-20页
     ·XML 的结构分析第20-21页
   ·XHTML 语法分析第21-23页
     ·XHTML 简介第21页
     ·XHTML 结构分析第21-23页
   ·传统的网页特征描述与提取方法第23-26页
     ·网页特征描述模型第23-24页
     ·网页特征抽取方法第24-26页
   ·八大门户网站中网页的相似结构及提取方法第26-27页
   ·本章小结第27-28页
3 与网页正文相关的文字和图像超链接分析第28-36页
   ·网页中的文字和图像超链接分析第28-30页
     ·出现文字链接的原因及其特点第28页
     ·出现图像链接的原因及其特点第28-30页
   ·与网页正文无关的广告超链接判定方法第30-32页
     ·超链接地址URL 的语法第30-32页
     ·判定广告超链接的计算模型第32页
   ·基于超链接分析的网页正文内容判定第32-35页
     ·网页正文判定的启发式规则第32-33页
     ·网页正文判定算法第33-35页
   ·本章小结第35-36页
4 基于区域分块的 HTML 网页正文提取技术第36-49页
   ·基于区域分块的HTML 的元素删除法提取网页正文第37-47页
     ·Head 和Body 区域块第37页
     ·取出head 区域块中的网页标题第37-39页
     ·取出Body 区域块中的网页正文标题第39-43页
     ·基于区域分块的HTML 元素删除法提取网页正文的算法描述第43-47页
     ·该算法的部分关键程序实现(参考附录C)第47页
   ·基于区域分块的HTML 元素嵌入式提取法提取网页正文内容第47-48页
     ·Head 和Body 区域块第47页
     ·确定网页标题的位置第47页
     ·确定网页正文标题的位置第47页
     ·确定网页正文内容的位置第47页
     ·算法描述第47-48页
   ·本章小结第48-49页
5 实验与分析第49-58页
   ·基于区域分块的HTML 元素删除法提取网页正文第49-53页
     ·对比实验一第49-51页
     ·对比实验二第51-53页
   ·基于区域分块的HTML 元素嵌入式提取法提取网页正文第53-57页
     ·对比实验一第53-55页
     ·对比实验二第55-57页
   ·本章小结第57-58页
6 总结与展望第58-60页
   ·论文创新点总结第58-59页
   ·研究展望第59-60页
致谢第60-61页
参考文献第61-64页
附录第64-68页
 A. 作者在攻读硕士学位期间发表的论文目录第64页
 B. 作者在攻读学位期间取得的科研成果目录第64-65页
 C. 基于HTML(以及XHTML 或XML)算法的部分关键程序实现第65-68页

论文共68页,点击 下载论文
上一篇:基于JXTA的P2P网络搜索机制的研究
下一篇:基于阴性选择的检测器生成算法研究