首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

复杂表格文档预处理与文本提取算法研究

致谢第5-6页
摘要第6-7页
ABSTRACT第7页
1 引言第11-17页
    1.1 研究背景与意义第11-12页
    1.2 国内外研究现状第12-13页
    1.3 研究重点及难点第13-14页
    1.4 研究主要流程第14-15页
    1.5 研究内容及组织结构第15-17页
2 文档表格区域定位及矫正第17-35页
    2.1 提出复杂文档中表格区域定位方法第17-29页
        2.1.1 检测直线边缘第17-21页
        2.1.2 直线过滤第21-23页
        2.1.3 求取直线交点第23-26页
        2.1.4 计算表格直线相交角度第26-27页
        2.1.5 确定表格位置区域第27-29页
    2.2 图像矫正第29-31页
    2.3 实验结果及讨论第31-34页
    2.4 小结第34-35页
3 文档二值化与表格检测第35-58页
    3.1 表格文档二值化第35-44页
        3.1.1 canny边缘检测第36-38页
        3.1.2 改进联通部件过滤方法并分离表格框线与文字区域第38-41页
        3.1.3 sauvola局部自适应二值化第41-44页
    3.2 改进BAG算法和检测表格第44-54页
        3.2.1 BAG算法第44-45页
        3.2.2 横向查找直线第45-49页
        3.2.3 纵向查找直线第49-51页
        3.2.4 虚线检测第51-52页
        3.2.5 根据横竖线位置关系及表格特征重构表格第52-54页
    3.3 实验结果及讨论第54-57页
    3.4 小结第57-58页
4 表格文档文本提取第58-70页
    4.1 去除表格分离文本第58-61页
    4.2 改进邻接向量算法和还原断裂文字第61-64页
    4.3 文本段落分割第64-65页
    4.4 文本行分割第65-68页
    4.5 实验结果及讨论第68-69页
    4.6 小结第69-70页
5 结论第70-71页
参考文献第71-74页
作者简历及攻读硕士学位期间取得的研究成果第74-76页
学位论文数据集第76页

论文共76页,点击 下载论文
上一篇:抗生素生产废水与城镇污水的处理系统中抗药基因的分布及控制
下一篇:我国上市商业银行风险与收益协调研究