基于Web信息自动抽取的英语题库生成算法研究
摘要 | 第1-5页 |
Abstract | 第5-8页 |
1 绪论 | 第8-14页 |
·背景、研究目的及意义 | 第8-9页 |
·国内外发展情况 | 第9-12页 |
·本文的主要工作及内容安排 | 第12-14页 |
2 总体方案设计 | 第14-19页 |
·自动获取网页 | 第15页 |
·预处理 | 第15-16页 |
·网页聚类 | 第16页 |
·模板生成 | 第16页 |
·信息匹配 | 第16-17页 |
·题库生成 | 第17-18页 |
·小结 | 第18-19页 |
3 网页聚类 | 第19-31页 |
·相关知识 | 第19-22页 |
·DOM 树的编辑距离 | 第22-26页 |
·网页聚类算法 | 第26-30页 |
·小结 | 第30-31页 |
4 模板生成算法 | 第31-42页 |
·HTML 文档匹配多个模板树 | 第31-34页 |
·正则表达式 | 第34-36页 |
·从多序列比对推导模型 | 第36-37页 |
·模板的简化 | 第37-38页 |
·最优化模板的建立 | 第38-40页 |
·生成模板 | 第40页 |
·试卷信息匹配 | 第40-41页 |
·小结 | 第41-42页 |
5 系统设计 | 第42-50页 |
·总体设计 | 第42-43页 |
·系统实现 | 第43-49页 |
·小结 | 第49-50页 |
6 测试结果及分析 | 第50-55页 |
·评价标准 | 第50-51页 |
·网页聚类测试及分析 | 第51-52页 |
·模板生成算法测试及分析 | 第52-53页 |
·试卷信息抽取测试及分析 | 第53-54页 |
·小结 | 第54-55页 |
7 总结与展望 | 第55-58页 |
·总结 | 第55-56页 |
·展望 | 第56-58页 |
致谢 | 第58-59页 |
参考文献 | 第59-63页 |
附录1 攻读硕士学位期间发表的论文目录 | 第63页 |