层作为文本编码器

Build better loan database with shared knowledge and strategies.
Post Reply
rochona
Posts: 13
Joined: Thu May 22, 2025 5:42 am

层作为文本编码器

Post by rochona »

ALBEF是一个图文模型。它采用ViT(Vision Transformer)作为图像编码器,使用 BERT 的早期,并通过添加交叉注意机制将 BERT 的后期层重新用作多模态编码器。它提出了新颖的图像文本对比 (ITC) 损失函数,用于在用多模态编码器融合单模态特征之前对其进行对齐。它也是首批无需区域信息即可展现强大多模态理解能力的模型之一。
BLIP主要处理图文转换任务,同时在视频文本转换任务中也展现出强大的零样本迁移能力。它采用 ViT 作为图像编码器,BERT 作为文本编码器。为了促进多模态理解和生成,BLIP 提出了一种编码器-解码器混合模型 (MED),将 BERT 重新用于多模态编码器和解码器,并进行合理的权重共享。BLIP 提出数据集引导技术,通过去除噪声文本并生成新的多样化文本来提升预训练语料库中的文本质量。除了比 ALBEF 更强大的理解能力外,BLIP 还突出了其强大的文本生成能力,能够生成准确且描述性强的图像字幕。当应用于视频文本转换任务时,BLIP 会对采样帧进行操作,同时串联这些帧的特征来表示视频。
CLIP是一系列强大的图文模型。与 ALBEF 和 BLIP 不同,CLIP 模型采用两个单峰编码器来获取图像和文本表征。CLIP 最大化了正例图文对之间的相似性,并在 4 亿个图文对上进行了训练,最终呈现出强大且鲁棒的单峰表征。
ALPRO是一个视频文本模型,用于处理视频文本检索和视频问答任务。它使用 TimeSformer 提取视频特征,并使用 BERT 提取文本特征。与 ALBEF 类似,ALPRO 使用对比损失来对齐单模态特征,但它选择使用自注意力机制来建模多模态交互。 这种架构选择支持 手机号数据库列表 一项额外的基于视觉的预训练任务——提示实体建模 (PEM)——来对齐细粒度的视频文本信息。ALPRO 在提取区域视频特征方面表现出色,并且在各种数据集的视频理解任务中保持竞争力。
表 2:LAVIS 中支持的任务、模型和数据集。

任务 模型 数据集
图文预训练 ALBEF,BLIP COCO、视觉基因组、SBU 标题、概念标题(3M、12M)、LAION
图像文本检索 阿尔贝夫,闪电。剪辑 COCO,Flickr30k
视觉问答 ALBEF,BLIP VQAv2、OKVQA、A-OKVQA
图像字幕 BLIP COCO 标题,无大写
图像分类 夹子 图像网
自然语言视觉推理(NLVR2) ALBEF,BLIP NLVR2
视觉蕴涵 阿尔贝夫 SNLI-VE
视觉对话 BLIP 维斯迪尔
视频到文本检索 ALPRO、BLIP MSRVTT,DiDeMo
视频问答 ALPRO、BLIP MSRVTT-QA、MSVD-QA
视频对话 BLIP 房室间隔缺损
模块化和可扩展的设计
下图展示了 LAVIS 的整体架构。我们的核心设计原则是提供一个简单统一的库,以便于 (i) 训练和评估模型;(ii) 访问支持的模型和数据集;(iii) 扩展新的模型、任务和数据集。
Post Reply