基于文本内容的网页过滤技术研究

摘要	第1-5页
Abstract	第5-9页
1 引言	第9-14页
·网页过滤简介	第9-11页
·个人电脑过滤	第9-10页
·企业网络内容过滤	第10-11页
·联网骨干网页过滤	第11页
·基于文本内容的网页过滤技术	第11-12页
·网页过滤与网页分类、文本分类	第12-13页
·内容安排	第13-14页
2 网页文本内容抽取	第14-24页
·网页文本抽取方法	第14-17页
·基于文档结构的文本抽取	第14页
·通过摘要的文本抽取	第14-16页
·基于链接的文本抽取	第16页
·基于相邻网页的文本抽取	第16-17页
·文本抽取中存在的问题	第17页
·基于相似度的网页文本抽取	第17-23页
·两种类型的网页	第18页
·宽度优先遍历树	第18-22页
·类别树	第22-23页
·小结	第23-24页
3 网页文本内容过滤技术	第24-33页
·概述	第24-25页
·特征选择方法	第25-28页
·文档频次	第25页
·互信息	第25-26页
·信息增益	第26页
·相对熵	第26-27页
·统计量	第27-28页
·文本分类方法	第28-30页
·贝叶斯分类算法	第28页
·支持向量机	第28-29页
·k近邻方法	第29-30页
·决策树	第30页
·阈值策略	第30-31页
·位置截尾法(RCut)	第30页
·比例截尾法(PCut)	第30-31页
·最优截尾法(SCut)	第31页
·改进型截尾法(RTCut)	第31页
·评测指标	第31-32页
·小结	第32-33页
4 实验	第33-42页
·训练、测试流程	第33-35页
·摘要	第35页
·贝叶斯方法	第35-37页
·贝叶斯文本分类算法的两种模型	第35-36页
·多变量贝努里事件模型	第36-37页
·多项式事件模型	第37页
·特征选择	第37页
·阈值策略	第37-38页
·实验结果	第38-39页
·实验结果分析	第39-41页
·小结	第41-42页
5 网页内容类别库更新	第42-55页
·互联网的动态性	第42-45页
·互联网的增长特性	第42-43页
·互联网内容的更新特征	第43-45页
·链接结构	第45页
·Random模型	第45页
·Scale-free模型	第45页
·网页抓取策略	第45-54页
·选择策略	第46-48页
·再次访问策略	第48-50页
·友好的下载策略	第50-51页
·并行策略	第51-54页
·小结	第54-55页
6 结束语	第55-56页
·结论	第55页
·未来的工作	第55-56页
参考文献	第56-58页
致谢	第58-59页
个人简历	第59页
参与的项目	第59页