Web文档分类及信息抽取的研究与开发

引言	第1-9页
第一章绪论	第9-22页
1．1 背景、意义	第9-11页
1．2 目标及任务	第11-12页
1．3 关键技术	第12-19页
1．3．1 文档分类	第12-17页
1．3．2 信息抽取	第17-19页
1．3．3 自适应学习	第19页
1．4 JAVA简介	第19-21页
1．5 小结	第21-22页
第二章 WEB文档自动分类引擎	第22-43页
2．1 网页自动分类引擎的系统结构	第22-23页
2．2 学习模块	第23-30页
2．2．1 预挖掘	第23-25页
2．2．2 分类规则的抽出	第25-27页
2．2．3 特征规则的生成	第27-30页
2．3 自动分类模块	第30-32页
2．3．1 计算文档的特征向量	第30页
2．3．2 分类结果的得出	第30-32页
2．4 人工干预的机器学习分类法	第32-33页
2．5 分类引擎的数据格式	第33-41页
2．5．1 学习文档目录文件	第33-34页
2．5．2 Html标记文件	第34页
2．5．3 Stop-words文件	第34-35页
2．5．4 单词文件	第35页
2．5．5 统计信息文本	第35-38页
2．5．6 分类引擎程序界面	第38-41页
2．6 实验结果	第41-42页
2．7 小结	第42-43页
第三章 WEB表格的信息抽取	第43-61页
3．1 开发背景及目的	第43-44页
3．2 系统构成	第44-46页
3．3 二叉树构建工具	第46-58页
3．3．1 Htmlparser类	第46-48页
3．3．2 TagNode类	第48-50页
3．3．3 TagTree类	第50-57页
3．3．4 信息抽取工具	第57-58页
3．4 重点问题—二叉树模型的选取	第58-59页
3．5 信息抽取示例	第59-60页
3．6 小结	第60-61页
第四章结束语	第61-62页
致谢	第62-63页
参考文献	第63页