基于热点网站内容分析的超链接提取研究

摘要	第1-7页
Abstract	第7-11页
1 绪论	第11-14页
·引言	第11-12页
·网页信息提取的应用	第12-13页
·本文主要内容	第13-14页
2 网页信息提取技术概述	第14-21页
·信息提取定义	第14-15页
·信息提取技术的发展历史和现状	第15-16页
·网页信息提取的分类	第16-18页
·网页内容提取	第17页
·网页结构提取	第17-18页
·网页日志记录提取	第18页
·热点网站页面信息提取算法	第18-19页
·主题网页的信息提取算法	第18-19页
·Hub网页的信息提取算法	第19页
·小结	第19-21页
3 热点网站页面内容特点分析	第21-35页
·热点网站及热点网站体育NBA特点	第21-24页
·热点网站及热点网页定义	第21-22页
·搜狐体育NBA页面内容组成及分析	第22页
·手工查询搜狐体育NBA页面源文件	第22-24页
·搜狐与网易NBA页面特点及比较	第24-25页
·搜狐体育NBA页面特点	第24页
·网易体育NBA页面特点	第24页
·二者页面特点比较	第24-25页
·从网页语言特点分析热点网站	第25-31页
·HTML语言简介	第25-26页
·热点网站HTML标签布局特点	第26页
·热点网站静态网页的特点	第26-27页
·热点网站网页超链接标记	第27-31页
·热点内容分析与内部关系	第31-33页
·搜狐体育NBA页面热点内容分析	第31-32页
·搜狐体育NBA页面内部关系	第32-33页
·热点网站链接特点与页面热度关系	第33-34页
·小结	第34-35页
4 HTML Parser解析热点网页的实现思路	第35-49页
·主流HTML文档解析器对比分析	第35-37页
·主流HTML文档解析器介绍	第35-36页
·常用HTML文档解析器比较	第36-37页
·选择HTML Parser的理由	第37-42页
·HTML Parser的部分成果	第37-38页
·HTML Parser采集热点网页	第38-41页
·从搜狐体育NBA页面输出源代码看网页特征	第41-42页
·系统运行环境准备	第42-44页
·Java环境安装配置	第42-43页
·HTML Parser安装配置	第43-44页
·用HTML Parser来分析实现思路	第44-46页
·热点网站内容分析基本流程	第44-45页
·热点网站内容分析系统结构	第45页
·HTML Parser解析网页的实现思路	第45-46页
·基于HTML Parser的热点双反馈URL及正文提取算法	第46-48页
·网页预处理	第47页
·HTML Parser提取URL	第47页
·URL反馈	第47页
·HTML Parser提取正文	第47页
·正文反馈	第47-48页
·小结	第48-49页
5 基于HTML Parser的网页超链接提取实现	第49-58页
·开发平台及工具	第49页
·系统结构	第49-50页
·提取热点网站内部超链接信息算法	第49-50页
·系统结构	第50页
·系统实现	第50-54页
·HTML Parser提取网页超链接	第50-52页
·HTML Parser提取网页文本信息	第52-54页
·系统运行结果及有效性评价	第54-57页
·查询显示提取的结果	第54-56页
·运行结果的有效性评价	第56-57页
·小结	第57-58页
6 结论与展望	第58-59页
参考文献	第59-60页
致谢	第60-61页
个人简历	第61页
发表的学术论文	第61页