网页内容过滤的关键技术研究及实现

摘要	第1-8页
ABSTRACT	第8-10页
第一章前言	第10-13页
1．1 课题的背景及意义	第10-11页
1．2 本文的工作与创新	第11-12页
1．3 本文的组织	第12-13页
第二章相关技术研究	第13-35页
2．1 网页过滤技术	第13-18页
2．1．1 内容分级标注	第13-15页
2．1．2 URL过滤	第15-16页
2．1．3 智能内容分析	第16-17页
2．1．4 当前的网页过滤系统	第17-18页
2．2 信息过滤模型	第18-21页
2．2．1 布尔模型	第19页
2．2．2 向量空间模型	第19-20页
2．2．3 概率模型	第20-21页
2．3 DOM技术探讨	第21-27页
2．3．1 HTML、XML和 XHTML	第22-25页
2．3．1．1 可标记超文本语言 HTML	第22-23页
2．3．1．2 可扩展标记语言 XML	第23页
2．3．1．3 可扩展超文本标记语言 XHTML	第23-25页
2．3．2 文档对象模型 DOM	第25-26页
2．3．3 基于 DOM的网页解析	第26-27页
2．4 中文分词技术	第27-31页
2．4．1 中文分词综述	第27-28页
2．4．2 中文分词技术	第28-30页
2．4．2．1 基于字符串匹配的分词方法	第28-29页
2．4．2．2 基于理解的分词方法	第29页
2．4．2．3 基于统计的分词方法	第29-30页
2．4．3 分词中的难题	第30-31页
2．4．3．1 歧义识别	第30-31页
2．4．3．2 新词识别	第31页
2．5 自动文本分类(Text Categorization)	第31-35页
2．5．1 KNN(Nearest Neighbour，NN)分类方法	第32-33页
2．5．2 支持向量机 SVM(Support Vector Machine)方法	第33页
2．5．3 基于神经网络的文本分类	第33-35页
第三章机器学习和神经网络	第35-42页
3．1 人工智能与机器学习	第35-36页
3．2 神经网络	第36-38页
3．3 自组织特征映射神经网络	第38-39页
3．4 Kohonen学习算法	第39-42页
第四章网页内容智能过滤的设计和实现	第42-54页
4．1 总体设计	第42-44页
4．2 预处理	第44-50页
4．2．1 基于 DOM的网页解析	第45-49页
4．2．2 中文分词模块	第49-50页
4．3 特征提取	第50-51页
4．4 向量生成	第51-52页
4．5 网页分类器	第52-53页
4．6 实验结果及分析	第53-54页
第五章总结与展望	第54-55页
参考文献	第55-59页
致谢	第59-60页
攻读学位期间发表的学术论文目录	第60-61页
学位论文评阅及答辩情况表	第61页