微调LayoutLM v3进行票据数据的处理和内容识别
作者:互联网
文档理解是文档处理和提取中最重要的步骤。这是从非结构化或半结构化文档中提取信息并将其转换为结构化形式的过程。提取后的结构化表示可以支持各种下游任务,例如信息检索,汇总,分类等。有许多不同的方法可以理解文档,但它们都有一个共同的目标:创建文档内容的结构化表示,以便用于进一步的处理。
对于半结构化文档,例如发票,收款或合同,Microsoft的Layoutlm模型可以良好的进行工作。
在本文中,我们将在微软的最新Layoutlm V3上进行微调,并将其性能与Layoutlm V2模型进行比较。
LayoutLM v3
LayoutLM v3相对于其前两个版本的主要优势是多模态transformer 架构,它以统一的方式将文本和图像嵌入结合起来。文档图像不依赖CNN进行处理,而是将图像补丁块表示为线性投影,然后线性嵌入与文本标记对齐,如下图所示。这种方法的主要优点是减少了所需的参数和整体计算量。
论文的作者表示,“LayoutLMv3不仅在以文本为中心的任务(包括表单理解、票据理解和文档视觉问题回答)中实现了最先进的性能,而且还在以图像为中心的任务(如文档图像分类和文档布局分析)中实现了最先进的性能。”
微调LayoutLM v3
我们将使用相同的220个带注释的发票数据集来微调layoutLM v3模型。为了进行标注,我使用了UBIAI文本注释工具,因为它支持OCR解析,原生PDF/图像注释,并可以用LayoutLM模型兼容的格式导出,这样就可以节省后期处理的工作。
从UBIAI导出注释文件后,我们将使用谷歌colab进行模型训练和推理。
完整文章:
https://avoid.overfit.cn/post/be399d8f17f542929155b8b2481ecaaa
标签:结构化,Layoutlm,微调,v3,文档,图像,LayoutLM 来源: https://www.cnblogs.com/deephub/p/16514168.html