基于互信息的网页信息过滤技术的研究与应用

摘要	第1-4页
Abstract	第4-6页
目录	第6-8页
第1章引言	第8-13页
·选题背景及意义	第8-9页
·国内外研究现状	第9-11页
·本文的主要研究内容与组织结构	第11-13页
·主要研究内容	第11页
·组织结构	第11-13页
第2章网页信息过滤的相关理论与技术	第13-24页
·中文分词技术	第13-15页
·常用的中文分词算法	第13-14页
·中文分词技术中存在的问题	第14-15页
·文本表示技术	第15-17页
·布尔模型	第15页
·向量空间模型	第15-16页
·概念表示模型	第16-17页
·文本特征提取技术	第17-19页
·文本特征提取的基本思想	第17页
·常用的文本特征提取模型	第17-19页
·信息过滤	第19-22页
·布尔模型	第20页
·向量空间模型	第20-21页
·潜在语义索引模型	第21-22页
·Rough 集理论模型	第22页
·信息过滤的评价标准	第22-24页
第3章训练语料库的构建	第24-35页
·语料库构建的理论基础及相关技术	第24-26页
·语料采集	第24-25页
·语料加工	第25-26页
·语料管理	第26页
·语料库建设中存在的问题	第26-29页
·设计问题	第26-28页
·标准规范问题	第28页
·产权保护问题	第28-29页
·非法信息语料库的构建	第29-35页
·网页内容结构分析	第29-30页
·网页内容提取	第30-31页
·实验与结果分析	第31-32页
·非法语料库的构建	第32-35页
第4章互信息过滤算法的设计	第35-44页
·文本预处理	第35-38页
·分词处理	第36-37页
·文本表示	第37页
·特征提取	第37-38页
·互信息过滤算法设计	第38-41页
·理论依据与工作原理	第38-39页
·互信息过滤算法	第39-40页
·阈值(Threshold)的确定	第40-41页
·特征向量的动态更新	第41-44页
第5章过滤系统的设计与实现	第44-52页
·系统的设计思想	第44页
·系统的总体架构设计	第44-46页
·实验及结果分析	第46-52页
·系统的开发环境	第46页
·实验及结果分析	第46-50页
·与其它模型的比较	第50-52页
第6章结论	第52-53页
参考文献	第53-57页
攻读硕士学位期间发表论文	第57-58页
致谢	第58-59页