【阅读笔记】技术前沿（视觉-语言预训练、能量模型）_python

1. 视觉-语言预训练 (Vision-Language Pre-training，VLP)

预训练模型，生成图像标注，视觉问答

- 模型角度，基于编码器-解码器的模型在「图文检索」task中尚未成功实践

- 数据角度，SOTA：CLIP、SimVLM 文本噪声问题严重

本文提出 BLIP（Bootstrapping Language-Image Pre-training），用于统一视觉 - 语言理解和生成任务，通过自展标注（bootstrapping the captions），可以有效地利用带有噪声的 web 数据，其中标注器（captioner）生成标注，过滤器（filter）去除有噪声的标注。

论文地址：https://arxiv.org/pdf/2201.12086.pdf

代码地址：https://github.com/salesforce/BLIP

试玩地址：https://huggingface.co/spaces/akhaliq/BLIP

模型动态运行示意图如下：

2. 「能量模型」（energy-based models）

Yann LeCun最新访谈

Q1. 什么是能量模型？

将「概率函数」定义为「描述了一个或一组随机变量呈现其每种可能状态的可能性大小」，而能量模型则简化了两个变量之间的一致性。能量模型借用统计物理学的概念，假设两个变量之间的能量在它们不相容的情况下上升，在一致的情况下则下降。这可以消除将概率分布“标准化”过程中出现的复杂性。

LeCun自己开发了一种叫做“联合嵌入模型（joint embedding model）”的现代能量模型，他相信这能为深度学习系统带来“巨大的优势”，这个优势就是“抽象表示空间中的预测”。这种模型为“预测世界的抽象表征”开辟了道路。抽象预测能力是深度学习系统广义上的发展前景，当系统处于推断模式时，这种抽象预测机器的“堆栈”可以分层生成规划场景。

从数理跨界到物理，是更接近本源的一步了欸，所以，总体的方向仍是，用极致的理性去获得预测感性的可能。理论科学家们或许已经走过仅仅处理物料的阶段🙊🙊🙊，路漫漫其修远啊，我进一步算一步吧！加油ヾ(◍°∇°◍)ﾉﾞ

Q2. 无监督学习和自监督学习的关系是什么？

自监督学习是一种特殊的无监督学习方式。而自监督学习基本上是去尝试使用对于非监督学习来说相当于监督学习的方法：也就是使用了监督学习方法，但训练的神经网络没有人为提供的标签。比如说我们可以取一段视频，给机器看一段视频片段，然后让它预测接下来会发生什么。或者也可以给机器看两段视频，然后问它这个视频是另一个视频的后续吗？我们要做的不是让机器预测后续，而是让它告诉你这两个场景是否相容。或者向机器展示同一个物体的两个不同的视图，然后问它，这两个东西是同一个物体吗？

所谓“授人以🐟不如授人以🎣”。

对比的方法或许注定要失败。不足之处在于，这种方法不能很好地适应这些东西的维度。两个图像相同或相容的情况比较少，可是两幅图像却可以有很多不同的地方，而且空间是高维的。所以，基本上我们需要指数级量的对比能量样本来推动这些对比方法的工作。对比方法仍然很受欢迎，但在我看来这种方式的能力真的很有限。所以我更喜欢非对比法或者所谓的正则法。

🙊“幸福的家庭大都相似，不幸的家庭各有不同。” 后面想做对比要谨慎了。

Q3. 能量模型是未来的方向吗？

现在，我最喜欢的模型不是从X预测Y的生成模型，而是我所谓的联合嵌入模型。我们取X，通过一个编码器运行它（如果你想的话，也可以用一个神经网络来运行）；取Y，并通过另一个编码器运行它；然后预测就会发生在这个抽象的表示空间中。这就是一个巨大的优势。

模态不是也可以，完全就是嘛哈哈哈！

Q4. 那么在接下来的5到10年里，你认为我们会在这方面看到什么进展呢？

我认为现在我们至少有了一种方法来让我们研究可以学习在抽象空间中进行预测的系统。在学习抽象预测的同时，系统也可以学习预测在抽象空间中随着时间或状态的变化会发生什么。对于一个自主的智能系统来说，这是非常重要的部分，例如，系统有某种世界模型，可以让你提前预测世界将会发生什么，也可以预测行为的后果。因此，给定对世界状态的估计以及你正在采取的行动，系统会给到你一个在你采取行动后世界状态的预测。有些无法观察到的潜变量。比如，当你开车的时候，你的前面有一辆车。这辆车可能刹车，可能加速，左重点是，这个模型在预测世界抽象表示的时候，是不能预测世界上所有的细节的，因为这个世界上的很多细节可能是不相关的。在路上驾车的时候，可能会在路边的一棵树上看到一片叶子上非常复杂的部分。模型是绝对不可能预测这个的，或者说你也不想投入任何精力或资源来预测这点。所以这个编码器本质上可以在被问到之前就消除这些信息。