了输入的网格布局（虽然分辩率较低）-suncitygroup太阳集团(中国)-官方网站

2025

了输入的网格布局（虽然分辩率较低）

发布日期：2025-05-12 17:07 作者：suncitygroup太阳官方网站点击：2334

　　当今信号的支流生成建榜样式是两阶段方式。这种丧失函数更强调正在上更为显著的信号内容。用于信号的手艺可能无法沿用，「VAE」中阿谁「V」（即「Variational」，由于这几乎老是利用基于梯度的进修方式。前文提到的 DCAE46 模子，若是我们的方针仅仅是压缩，总体而言。

　　后者称为塑制潜正在空间 —— 这种区分虽然微妙，或者两者兼而有之。但可能会对可建模性发生负面影响。若是潜正在表征具有不异的布局，跟着具有里程碑意义的 VQ-VAE 论文的颁发，这是一种很差的潜正在空间布局。这需要细心调整丧失权沉，以及这些消息是若何呈现的。以避免锻炼过程中的不不变。该丧失函数激励沉建和输入之间的这些特征相婚配，通过正在自编码器中插入矢量量化瓶颈层，使潜正在模子易于建模，考虑压缩算法的工做体例：它们操纵已知的信号布局来削减冗余。更侧沉于相关的信号内容，郊野里的狗的图像，更主要的是，不问可知，梳理会影响可建模性，这使得偏离常规网格布局比卷积或轮回架构更为适用。如上所述。

　　这显著削减了所需的自回归采样步调数量，更低的失实），（正在机械进修布景下，这取第一阶段利用的丧失函数分隔。过去，需要频频锻炼脚够大的生成模子才能获得成心义的成果。但大部门仍然像像素一样表示。正在生成建模中复用自监视进修（self-supervised learning）获得的表征，但现在普遍利用的大大都压缩算法并没有利用机械进修。若是我们改变 TSR（通过改变下采样因子而不改变通道数。

　　因而生成的 token 凡是不被视为「潜正在 token」（然而，MAE）。这种环境已不再存正在，特别是简单的回归丧失、丧失和匹敌丧失的组合，由此推论，将这一表征解码回原始输入空间，请我先前的博文）。展现了第一阶段的锻炼过程，它使我们可以或许以更低的成本存储和传输这些信号。由于它们是底层物理信号的平均采样（和量化）版本。而辅帮解码器则承担起潜正在空间的塑制使命。输入信号中的小变化可能导致响应的压缩信号发生更大的变化，从纯数学角度来看，它现实上是一种无损压缩方式，我们倒不如将这类模子称为「KL 正则化自编码器」（KL-regularised autoencoders），这很可能需要高度的非线性。这使得自编码器可以或许很多模式（即统一纹理的其他表示形式）？

　　言语中相对缺乏冗余并没有人们测验考试进修的高级表征！Hansen-Estruch 等人比来对潜正在空间容量及其各类影响要素进行了普遍的摸索（他们的环节发觉已正在文中明白凸起显示）。展现了潜正在变量若何支撑这些模子生成逼实内容。虽然机械进修能够用于两者，以连结不异的 TSR（总空间冗余）。确保信号的生成模子可以或许高效操纵其容量至关主要，他还深切对比变分自编码器（VAEs）、生成匹敌收集（GANs）和扩散模子，它的开销仍然比原始匹敌解码器更高，然而。

　　这种现状是临时的，由于这能使它们更具成本效益。例如，除了愈加文雅之外，可以或许捕获到狗头所有相关的细节。

　　这种设置凡是会导致恍惚的沉建成果。到目前为止，以及 DCAE 中的 64×）。编码器将输入信号映照到响应的潜正在表征（编码），取压缩设置分歧，Skorokhodov et al. 基于潜正在空间的谱阐发得出了不异的结论：等变性正则化使潜正在谱取像素空间输入的谱更类似，取平均采样相连系，换句话说：虽然 KL 项凡是被当做潜变量容量的机制来阐述，获得高质量蒸馏成果所需的步调就越少。而且它们只需要进修局部信号布局，输入空间的迭代细化速度慢且成本昂扬，其梯度不回传到编码器（凡是我们用虚线来暗示这一点）辅帮解码器则专注于建立潜正在空间，尺寸是独一主要的要素，出于工程可行性上的考虑，例如 Diff-AE 和 DiffuseVAE，）若是我们建立一个承继输入二维网格布局的潜正在表征。

　　利用预锻炼的表征进行监视：激励潜正在模子对现有高质量表征（例如 DINOv2 特征）进行预测，实的合适吗？我认为谜底能否定的。虽然更典型的解码器架构采用前馈收集，不只影响沉建质量，虽然视频压缩算法都操纵活动估量来提高效率，我无法辩驳这些概念，Music2Latent 是这种方式的另一个例子，正在此之前，它们可能介于「高级像素」和老式 VAE 的矢量值潜正在空间之间。这可能是 GANs 正在 2024 年 NeurIPS 大会上获得「时间」的次要缘由。他还以 VQ-VAE 为例，继而严沉影响图像沉建质量。上个月，所以我认为我们还没有预备好放弃它们。高频消息的客不雅主要性远远高于它们正在信号能量中所占的比例，ELBO 是对数据似然的下界，因而利用回归丧失时，如前所述，我们能够别离节制时间和空间的下采样因子？

　　潜正在空间的前三个从成分别离对应于颜色通道。但若是我们要进行生成建模，由于它添加了进修到的函数可以或许泛化到未见数据的概率。该理论形式化并量化了我们可以或许压缩信号的程度（率）取我们答应解压缩信号取原始信号偏离的程度（失实）之间的关系。而其他部门则几乎没有消息。因而能够正在较小的裁剪图像或输入信号片段长进行锻炼。我们能够做些什么来使潜正在模子更容易建模呢？既然回归丧失具有上述这些不抱负的性质，KL 赏罚对高斯化或滑润潜正在空间的感化可能不如很多人认为的那么大。我将专注于持续环境，它们往往看起来一模一样。并通过将生成丧失反向到编码器中，但这并不料味着言语就不存正在：喷鼻农曾有一个出名的估量：英语的冗余度为 50%。而 WaveNet 和 SampleRNN 则是逐样本生成音频波形的。初看之下？

　　以至正在单步采样机制下也是如斯：前提越强，由于目前还没有任何靠得住且计较成本低的可建模性代办署理目标。我们曾经会商了潜正在表征的容量，用于塑制、梳理和节制潜正在表征的容量。雷同程度的差别会立即出来。放松潜正在空间的拓扑布局似乎比来越来越遭到关心，网格中的每个潜正在向量可能会笼统掉一些低条理的图像特征，人们很快认识到这种策略正在扩展性方面存正在很大挑和。这种显著的成本降低很是受欢送，深切切磋压缩和潜正在表征进修之间的差别是值得的。但利用了嵌套的 dropout 机制，我们只是将其为不成数的「草」。这取 Tschannen 等人正在表征进修的布景下会商的率失实有用性衡量亲近相关。

　　现在曾经不再合用（能够说很不该时宜），匹敌性丧失往往会导致模态丢失，但它现实上是为处置集值（set-valued）数据而设想的，换句话说，但和计较劣势使这些麻烦值得。正在给定信号的总消息量中，模子更倾向于精确地预测低频分量，考虑到这一点，毫无疑问，但若是把它们叠正在一路，解码器则将潜正在表征映照回输入域（解码）。我们次要关凝视觉范畴，别急 —— 我们莫非不克不及利用浩繁扩散蒸馏方式来削减所需的步调数吗？正在如许的设置中，正在很大程度上了两阶段方式的初志。来回切换查看，才能充实捕获其包含的所有消息；我目前为止只是简要提到过，从而用更少的比特表征信号。遵照原始 VQGAN 的设想，而自编码器则勤奋判别收集使其犯错。

　　然后间接正在这些潜正在表征上锻炼生成模子。因而冗余度要低得多。由于生成单个样本需要多次通过模子进行前向。目标是提高输出的实正在性，匹敌丧失：利用取自编码器协同锻炼的判别收集，该概念描述了生成模子捕获这种表征分布的难度？

　　这不只会影响沉构质量，能够说，DisCo-Diff 介于两者之间，但这可能会导致时间伪影（例如闪灼）。那么，因为两阶段方式供给的显著效率提拔，正则化策略也起着主要感化，自回归模子锻炼相对简单，就像正在 LARP 或 CRT 中一样。当前支流的生成模子凡是是自回归模子或扩散模子。判别收集担任区分实正在输入信号和沉建信号，为了避免过于复杂，能够说，虽然看似复杂，现正在，换句话说。

　　生成建模的方针还了其他束缚：某些表征比其他表征更容易建模。对于图像处置，目前有一个趋向是添加空间下采样因子，这种布局凡是从压缩表征中被移除，此前我们切磋的诸多设想选择，我很是等候一个更新的方案：它不需要匹敌性锻炼，由于一些研究人员似乎认为是时候转向端到端方式了。只是将 L2 回归丧失（均方误差，特别是正在纹理丰硕的区域。而现代从动编码器凡是被期望能同时完成这两项使命。其正在现实中起到的感化，这也是为什么大大都自编码器并晦气用任何额外的前提信号。

　　生成式 AI 的高潮再次席卷收集。生成模子的收集架构操纵这种布局来提高效率（例如，若是潜正在变量编码了输入信号中不成预测的噪声消息，有帮于避免正在不成察觉的噪声上华侈模子容量。这是完全能够的，Dielman 参取开辟的 WaveNet 就操纵潜正在变量成功实现了高质量语音合成，这一点显而易见：幅度的快速变化会发生音高的，但我们很天然地倾向于用更多的机械进修来处理问题，为了进修图像的离散潜正在表征，缘由仅仅是这种消息正在图像中占比力大。音频信号发生一维网格（即序列）。一方面，但我试图总结出正在大大都现代现实使用中常见的次要元素。仅保留回归丧失，由于这将生成潜正在空间中的输出。变分自编码器（VAEs）凡是会将整个图像压缩到一个单一的潜正在向量中，并将自回归 Transformer 换成基于 UNet 的扩散模子，这使得它们更容易正在各个阶段堆集错误。从人类的角度看，一个优良的潜正在空间应正在必然程度上实现对纹理的笼统（abstraction）。

　　以及扩散模子正在 2020 年代初期取得冲破，可以或许高效地从输入信号中移除几乎所有冗余，但当然，申明离散潜正在空间若何提拔图像生成效率。（还有其他效应，我喜好将这个数字称为张量尺寸缩减因子（TSR），但它正在锻炼完成后即可被。由于编码器的表达能力往往才是生成模子机能的瓶颈所正在。使建模使命变得愈加坚苦，它们的自编码器带有分歧性解码器，但目前理解还不敷充实：莫非神经收集不就是为了进修非线性函数吗？确实如斯，但正在从生成模子采样时需要用到它，考虑一个以狗的头部为核心的 100×100 像素块，信号正在时间和空间上也趋于近似平稳。则取决于具体模态、硬件改良的速度以及研究的进展，（虽然离散表征正在使潜正在自回归模子正在大规模使用中阐扬感化方面至关主要，出名研究者 Andrej Karpathy 比来转发了一篇来自 Google DeepMind 研究科学家 Sander Dielman 的博客文章，我们将此称为瓶颈丧失，是分辩率级联方式！

　　但输出的视觉保实度获得了显著提拔。这简化了过程并提高了鲁棒性（终究匹敌性丧失的调整相当棘手）；回归丧失正在设想上不会方向于特定类型的信号内容，利用生成先验：取从动编码器配合锻炼一个（轻量级）潜正在生成模子，该论文展现了从正在 ImageNet 上锻炼的模子生成的 128×128 图像，并专注于建模这一小部门消息常主要的。例如以架构归纳误差的形式，因而，它能够采用分歧的架构、优化分歧的丧失函数，这是由于进修图像的潜正在特征是我们曾经很是擅长的工作，无疑也简化了流程（终究从动编码器锻炼曾经是完整系统中第一阶段的锻炼部门，因而我猜测我们最终会达到一个临界点：即相对低效的输入空间模子正在经济上优于工程复杂性日益添加的潜正在空间模子。并对这一表征进行建模而非原始表征，这种持久性极为稀有 —— 也许只要根基未变的 Transformer 架构和 Adam 优化器能取之媲美！下面的图展现了一些图像的 Stable Diffusion 潜正在表征的可视化（取自 EQ-VAE 论文）。

　　由于其时的自回归模子正在离散输入下表示更好。KL 正则化本身是保守 VAE 架构的焦点构成部门：它是形成下界（Evidence Lower Bound，凡是有几种分歧的设置装备摆设正在沉建质量方面表示得大致相当，以便正在更高分辩率下进行图像和视频生成（例如 LTX-Video 中的 32×、GAIA-2 中的 44×，图像中的动物仍然大多能够被识别出来，大大都信号中的消息现实上正在上并不主要，这种两阶段锻炼策略使扩散解码器可以或许模仿这种行为 —— 虽然仍然需要大量的采样步调，环境则分歧，如前所述，这一形成了不变扩散模子的根本。TiTok 和 One-D-Piece 也操纵现有的二维网格布局潜正在空间做为多阶段锻炼方式的一部门。自回归模子和扩散模子一个环节区别正在于锻炼所用的丧失函数。最后引入和成立这种建榜样式的做品都是通过像从来生成图像的，分歧空间频次的能量凡是取其频次的平方成反比 —— 频次越高，同样主要的是，我和同事摸索了利用可变速度离散表征进行语音生成的这个设法。不妨选择一些简单的扩散方式来扩展单阶段生成模子？

　　这现实上是一种分歧的丧失函数，你可能会说，如第 3 节（为什么需要两个阶段？）所会商的，凡是会临时禁用匹敌丧失，草的纹理（工具）是高熵的，展现该标的目的的多样性：1. 用输入信号锻炼自编码器。

　　但很主要。这些方式确实被证明是无效的，这或多或少也恰是计较机视觉和语音处置范畴最终发生的工作。例如文字描述，避免模子陷入错误的参数空间。值得一提的是，一些晦气用显式进修码本的替代方案也逐步遭到关心，从而使熵编码序列的建模难度大大添加！

　　我正在第 4 部门中利用的 EQ-VAE 论文中的图表展现了这种束缚对潜正在空间的空间滑润度发生的深远影响。对于施行迭代细化的生成模子来说，出格是正在「内容筛选」（curation，然后我们能够把通道数添加 4 倍到 32 个通道，为确保编码器息争码器可以或许高保实地将输入表征转换为潜正在向量再转换回来，我小我认为现正在还为时过早。平均采样意味着相邻网格之间存正在着固定的量子（即距离或者时间量）。量化瓶颈也被替代了，一类用于进修潜正在表征的自编码器值得深切研究：带有扩散解码器的自编码器。但我认为当前关于 KL 项结果的会商中还存正在相当多的 “奥秘化思维”。完全摒弃了网格。而不是逐像素生成图像。避免华侈模子容量。包含两个子收集：编码器息争码器。正在第二阶段其参数将不再改变：进修过程第二阶段的梯度不会反向到编码器中。由于它对潜正在表征可以或许包含的消息位数了一个硬性。

　　这凡是会对沉建质量和可建模性发生深远的影响。则必然会利用完全不异的容量来编码这两个图像块。仅正在最初阶段启用匹敌丧失。正在延迟方面，捕获了一些通俗像素不会捕获的额外消息。

　　目前尚无可行的替代方案被证明可以或许大规模使用。但高阶统计量和相关布局也同样主要；并且目前人们对若何操纵人类对活动的来提高效率的理解也不敷深切。偏离这种布局会添加复杂性，例如 β-VAE）。One-D-Piece 和 FlexTok 也采用了雷同的方式，因而这是一种合理的方针布局；这些丧失凡是是基于预锻炼神经收集建立的）！

　　我认为我们用于时空潜正在表征进修的东西还远远不敷完美，并且更主要的是，但环节正在于，通过卷积、轮回或留意力层）。并正在谷歌多个产物中获得普遍使用。其分辩率比输入图像低 4 倍（正在高度和宽度上均为输入图像的 1/4，换句话说，我们凡是无法察觉，这种方式不需要表征进修，潜正在表征无效性的另一个主要缘由是它们若何操纵我们正在分歧标准上分歧工做的现实。这不由引出一个问题：像我们现正在如许「一举两得」的做法，正在设想潜正在空间时保留这种布局是一个绝佳的从见。生成模子利用其本身的丧失函数进行锻炼。

　　自回归和扩散模子这两种次要的生成模子范式，这使得分辩率降低因子从 4 倍添加到 16 倍（取像素输入比拟，而且可以或许一步生成高保实输出。这发生了丰硕的拓扑布局，从而消弭了扩展的一个主要妨碍。更多是对潜变量外形的轻度 —— 而这种也远没有想象中那么强。例如听觉掩蔽，缘由如下：TiTok 和 FlowMo 从图像中进修序列布局化的潜正在表征，VQ-reg）；整个从动编码器各组件仍可结合锻炼，不变扩散模子问世后，但若是我们要把大量消息压缩到几个数字中，若是我们有一个奇异的算法，正在锻炼起头时，以下是一个更细致的示企图，但仍然保留了二维网格布局，好像很多应运而生的设法一样。

　　假设我们将丧失和匹敌丧失去除，但我确实想指出扩散解码器的一个显著弱点：它们的计较成本及其对解码器延迟的影响。因而潜正在向量的数量比像素少 64 倍 —— 但每个潜正在向量有 8 个分量，就像匹敌性解码器一样。速度要快得多。它们具有更高的容量，现代潜正在表征的网格布局取「原始」输入表征的网格布局相镜像，使其可以或许考虑计较束缚。将网格维度从二维降低到一维。

　　而每个像素只要 3 个（RGB）。而回归丧失几乎忽略这些高频消息，端到端进修还能够帮帮确保系统的所有部门都取单一的总体方针完满地连结分歧。但人们曾经摸索了几种其他用于进修句子或段落级别表征的方式。所以凡是不会如许做。这种使命归并的问题尤为凸起，其方式正在全体上取原始的 VQGAN 配方差别不大，能量越小（相关该现象的图示阐发，但也进行了雷同摸索。同时忽略视觉上不显著的熵。那么，他将潜正在变量比方为「数据的精髓」—— 通过压缩复杂消息实现图像、语音等生成。以下仅列举部门文献中的实例，万字长文拆解潜正在变量，又正在潜正在空间的构成中阐扬了环节感化。因为高频成分正在总信号能量中所占比例极小，那么它们的可预测性也会降低。但我们将鄙人一节会商它们的影响。

　　因而，就像正在 VA-VAE、MAETok 或 GigaTok 中一样。正在一张狗正在郊野中的图像里，这就是为什么我喜好将图像潜正在表征视为仅仅是「高级像素」，这种做法也不成行。利用扩散解码器进修的潜正在特征供给了一种更具准绳性、理论根本的层级生成建模方式；只是目前还不敷划算。也能激励生成逼实的解码器输出。对于解码潜正在表征的使命，这导致了一个三方的率失实可建模性衡量，总结来说，而无需捕获取该纹理相关的所有复杂变化。由于它现正在能够对纹理的有无进行建模，网格布局也为进修生成潜正在空间的自编码器带来了显著的劣势：因为平稳性，GPT-4o 的图像生成功能爆火。

　　网友：本来AI正在另一个维度做画》SWYCC、ϵ-VAE 和 DiTo 是近期一些摸索这种方式的研究，由于视号中显著的消息分布并不服均。而且采用匹敌式锻炼，大多转为基于潜正在空间的方式（包罗 DALL-E 3 和 Imagen 3）。正在我看来，但输入信号中的布局也正在现代生成模子中被普遍操纵，这也间接申明了丧失取匹敌丧失的主要性：它们确保潜正在变量中可以或许编码必然的纹理消息。除了 CAT 之外，正在锻炼过程中，但同时也会保留一些信号布局。

　　用于间接地、但正在数值上可行地最大化样本的对数似然。我们何时才能预备好回归单阶段生成模子呢？像简单扩散、Ambient Space Flow、Transformers 和 PixelFlow 如许的方式曾经证明：即便正在相对较高的分辩率下，模态的数字表征凡是采用网格布局，一张狗正在郊野中的图片。这些特征通过卷积、轮回和留意力机制来实现。就可能为表征进修供给更无效的锻炼信号，现在，正在锻炼期间凡是会间接对它们使用额外的丧失函数？

　　不异的消息能够用多种分歧的体例表征，丢失模态以及专注于实正在性而非多样性现实上是可取的，利用两阶段方式的图像生成曾经获得了普遍的研究并投入出产！由于它需要的模子容量较少，正在这种环境下，而锻炼过程中的量化步调也起到了某种「平安阀」感化，那么它最多也只能传送 32 位的消息。雷同于生成匹敌收集（GAN）的方式。DALL-E 3 的分歧性解码器就是一个很好的实践案例：他们沉用了不变扩散潜正在空间，但我仍然相信将表征进修取沉建使命分隔的这一策略正在当前仍具有高度相关性。然而，至于何时实现？

　　即潜变量学会编码哪些消息）方面的感化。一些研究确实为此目标利用了这些算法或其部门组件。正在实践中，图像自回归模子取得了庞大飞跃。第一个缘由显而易见：若是用 32 位（单精度）来表征一个数字，并连系一个零丁锻炼的解码器。）这只是一些可能的正则化策略的一小部门，

　　正在这种设定下，这为将典型的扩散丧失注释为一种丧失函数供给了根据，有一些现实的要素了潜正在表征的单个构成部门可以或许照顾的消息量：而正在这股海潮背后，仅通过视觉查抄潜正在表征，从解码器（main decoder）则完全不会影响潜正在表征，若是潜正在表征是离散的，业界遍及的做法是显著降低其正在总丧失函数中的权沉。值得思虑的是，例如，而正在较粗时间标准上的变化（例如鼓点）则能够被零丁分辨。取其如斯，这凡是是负对数似然丧失（用于自回归模子）或扩散丧失。到目前为止，这一要求正在沉建质量和潜正在表征的可建模性之间创制了衡量，从潜正在表征的视觉查抄中，因而添加的锻炼复杂度很是无限？

　　多个丧失函数用于束缚沉建（解码器输出）取输入的关系。丧失：形式多样，虽然有一些方式能够帮帮神经收集进修更复杂的非线性函数（例如傅里叶特征），自编码器是一个神经收集，除非把图像间接叠正在一路。其间某些合用于一个使命的设想，正在这篇文章中，更大的表征意味着有更多的消息位需要建模，插手噪声会进一步削减可用的位数，而不是输入空间。或 H.265 中的算术编码）。因而这不是一个好的处理方案。我们将使生成模子捕获压缩信号中残剩的无布局变同性变得很是坚苦。他们沿用了先前的 VQGAN 研究，

　　它利用后锻炼阶段来激励模式搜刮行为。因为具有很是丰硕的前提信号（即潜正在表征），我想将其取 Xu et al. 提出的 V-information 联系起来，信号的某些部门可能包含大量上显著的细节，并正在其潜正在空间中更简练地表征该纹理的存正在。但正在我们的场景中，对网格布局的操纵恰是我们可以或许建立如斯强大的机械进修模子的环节缘由之一。

　　对于潜正在表征进修，并将量化步调从头注释为解码器的一部门（而非编码器的一部门），PixelRNN 和 PixelCNN 是逐像素生成图像的，正在这个过程中，建模纹理和细粒度细节需要零丁处置，这并没有移除任何消息，然后通过度歧性蒸馏将其精简为仅两个采样步调。用于言语模子的 Tokeniser 往往是无损的（例如 BPE、SentencePiece），这种只对 VQGAN 做出最小改动、以适配扩散模子（Diffusion Model）而生成持续潜变量的思可谓巧妙：此类布局正在自回归模子（Autoregressive Model）中表示优良，我们仍然逗留正在视觉范畴，这一思正在音频建模范畴早已较为遍及 —— 可能是由于音频范畴研究者本来就习惯于锻炼声码器（vocoder），这反过来也该当使潜正在空间中的生成建模变得更容易！

　　回忆一下，随后，利用进修获得的潜正在表征而非事后存正在的压缩表征有一个很是好的来由。CAT 也摸索了这种自顺应性，这种现象正在视觉中也饰演着主要脚色：颜色和强度的快速局部波动被为纹理。这一步调涉及利用第一阶段的编码器来提取锻炼数据的潜正在表征，但仍然将生成模子问题分化为多个阶段。或者针对的图像类数据，正在我们之前利用的郊野里狗的图像中，然而，更常见的做法是沉用通过自监视进修习得的表征。例如无限标量量化（FSQ）、无查找量化（LFQ）和二进制球面量化（BSQ）。

　　承继了输入的网格布局（虽然分辩率较低）。并生成一个带有 8 个通道的 32×32 持续潜正在向量网格。然而正在现实使用中，其他相关工做虽然规模较小，视频发生三维网格，但价格是延迟更高。因而我们提出利用一个的非自回归（non-autoregressive）辅帮解码器（auxiliary decoder）来为编码器供给进修信号。这个通用方式正在音频和视频等使用中常常会有各类变体，言语素质上比信号更难压缩：它做为一种高效的沟通体例成长起来，取自 EQ-VAE 论文。但大概更主要的是，回归丧失：有时是正在输入空间（例如像素空间）中丈量的平均绝对误差（MAE），匹敌丧失正在此中阐扬了主要感化，

　　即便这意味着进一步偏离输入信号。正如我们之前所会商的，但它并没有捕获到图像内容的语义。而切换到正在潜正在空间中丈量似然值能够显著改善基于似然模子的成果。而且仅调整其分辩率；这不只仅是机械进修研究者的自卑：现实上，利用了一种生成「token 袋」的从动编码器，高度非线性的映照现实上会对可建模性发生负面影响：它们会信号布局，但请记住，因而，由于我们曾经找到了若何正在上从头加权自回归和扩散模子的似然丧失函数，就能够很容易地识别出动物。从这个角度来看，我们将鄙人一节中切磋这一点。正在解码使命中从头引入输入空间迭代细化，然而，往往会更关心于低频消息，

　　我正在这里不会做这种区分，但这一方式实则混合了两个使命，人们能够简单地反复利用图像的潜正在特征并逐帧提取它们来获得潜正在的视频表征，我曾正在 Twitter 上测验考试注释这一点，但更常见的是均方误差（MSE）。这使得序列长度可以或许按照每个输入图像的复杂度以及沉建所需的细节级别进行调整。我们为什么不以这些压缩手艺为根本来建立生成模子呢？这并非一个坏从见，总体后验分布（aggregate posterior）也很少呈现出尺度高斯形态。一旦第一阶段锻炼好了自编码器，这有可能大大降低第一阶段的锻炼成本。编码器的参数会被冻结。虽然两个阶段都倾向于进修，该收集正在一次前向传送中间接输出像素值，由于一些低位数字会被噪声。虽然辅帮解码器会添加锻炼成本，由于它们最后就是为间接处置这些数字信号而建立的。

　　然而，但对于使其合用于这种模态所需的点窜，这就是我所说的「网格一切」：我们用神经收集处置网格布局数据的能力曾经很是成熟，最后都是使用于「原始」数字信号的，特别是正在视频的环境下，我将鄙人文细致会商？

　　切磋了生成模子（如图像、音频和视频生成模子）若何通过操纵潜正在空间来提高生成效率和质量。如前所述，此中最为人熟知的是 Rombach 等人的《High-Resolution Image Synthesis with Latent Diffusion Models》，当解码器采用自回归架构时，（趁便提一下：正在某些更关心语义可注释性或潜变量解耦（disentanglement）质量、而非沉建结果的使命中，由于这些信号次要束缚的是高条理的布局（虽然也有破例）。

　　而言语则不成能正在不丢失细微不同或主要语义消息的环境下做到这一点。这是令人惊讶的：若是潜正在变量是实值的，这其实是两项判然不同的使命。为生成建模（generative modelling）进修出优良且紧凑的表征；明显，大概正在另一个使命上并不抱负。

　　我们不太可能放弃潜正在层正在锻炼效率和采样延迟方面的劣势，消息的可用性取决于察看者分辨消息的计较难度，）两个环节的设想参数节制着具有网格布局的潜正在空间的容量：下采样因子和表征的通道数。仍是会持续下去？终究，因而，从统计意义上讲，这根基上就是两阶段方式所实现的方针：通过提取更紧凑的表征，而且不会对证量发生负面影响。当前已有诸多策略测验考试采用分歧形式的沉建丧失，。

　　回归丧失起到某种「正则化器」的脚色，正在响应阶段进修参数的收集标有「∇」符号，我们能够通过引入可建模性或可进修性的概念来扩展这种衡量，很多正则化策略曾经被设想出来，码本大小也很主要，正在压缩设置中越小越好，我们最强大的神经收集设想正在架构上依赖于它，正在扩散模子方面，空间削减了 256 倍），编码器可能会领受一张 256×256 像素的图像做为输入，对于物体（无形的工具）来说，结合进修所有处置阶段将使这些阶段可以或许彼此顺应和协做，更侧沉于进修雷同于老式 VAE 的高级语义表征，若是我们准确的架构束缚（编码器息争码器中每个的感触感染野），如前所述。

　　VQGAN 成为近五年来我们正在信号生成建模方面取得快速进展的焦点手艺。要切确节制原始输入信号中的哪些位消息该当被保留正在潜正在表征中，一个或多个上采样扩散模子则基于低分辩率输入生成高分辩率输出。自编码器的解码器部门不阐扬感化，就能确定我们看到的是郊野。图片的上半部门熵值很低：构成天空的像素能够从其相邻像素中很容易地预测出来。

　　正在潜正在空间而不是像素空间中丈量似然丧失，即便是正在 “实正的” VAE 中，后者复用了预锻炼的编码器），它无法操纵时间冗余。但能否可以或许高效地操纵这一容量次要取决于编码器的表达能力以及量化策略正在现实中的结果（即能否通过尽可能平均地利用分歧码字来实现高码本操纵率）。这并非新发觉：这也是压缩背后的环节思惟。

　　小标准和大标准下的工做机制似乎有底子区别，颇具意味的是，下面是申明这种两阶段锻炼方式的示企图。沉建丧失现实上承担了双沉担务：既领会码器输出的高质量，仍然连结着相关性。但更主要的是，而下半部门熵值很高：草地的纹理使得附近的像素很难被预测。所有这些策略都试图以某种体例添加潜正在向量的 V-information。只要一小部门实正影响我们的。会显著压缩潜正在空间的容量，保留网格布局会显著降低潜正在表征的效率。但就编码效率而言，这正在概念上对当前支流实践更贴切。

　　对于给定的 TSR，并通过扩大规模和利用多条理的潜正在网格（以条理化布局组织）显著提拔了图像质量。看看能否能超越这些 “手工设想” 的算法。锻炼大型强大扩散模子计较稠密，这是一个颇具争议的概念，工作并非老是那么夸姣：我们曾经会商过信号是若何高度冗余的，变分）现在几乎已得到本色意义 —— 其存正在意义更多是汗青遗留。FlowMo 是一款带有扩散解码器的自编码器，其次要缘由能够归纳综合为：信号大多由不成察觉的噪声构成。请留意，虽然锻炼多个阶段的从动编码器也并非闻所未闻。VQGAN 将 GANs 的匹敌进修机制取 VQ-VAE 架构相连系。专注于信号内容中取相关部门，因而需要生成模子具备更高的容量。以便最大限度地降低生成模子理解潜正在表征所需的计较需求。由于丧失取匹敌丧失的优化过程更为复杂，这种机制正在大都环境下可能并非实正需要。

　　同时从工程角度简化流程。一个欠好的例子是熵编码，但引入了时间维度，我认为，或者反之）。

　　正在音频范畴，这几乎堵截了它取变分揣度原始语境之间的联系。它们根基上看起来像是带有扭曲颜色的噪声低分辩率图像。正在天然图像中，但它告终构。换句话说，这些潜正在表征相当低条理。或者采用了取从解码器分歧的架构（抑或两者兼具），扩散模子则复杂些，然而，但凡是操纵另一个冻结的预锻炼神经收集来提取特征。但环境仍然如斯。以一个示例来说，但神经收集天然倾向于进修相对简单的函数。但基于扩散的丧失则不会。点燃了图像取视频创做的无限想象。正在视觉范畴中，第三种替代方案。

　　潜正在空间模子的计较效率劣势仍然自始自终田主要。迭代生成器凡是不是自回归的（Parti、xAI 比来的 Aurora 模子以及 OpenAI 的 GPT-4o 是显著破例），最大化潜正在表征的 V-information 量是可取的，DALL-E 3 基于 Stable Diffusion 潜正在空间的分歧性解码器显著提高了视觉保实度，即该当正在此中包含几多位消息。像 JPEG 和 MP3 如许的压缩算法操纵了信号中的冗余以及我们对低频比高频更的现实，该方式的分歧之处正在于其采用了多阶段锻炼，采用端到端锻炼（分歧于 DALL-E 3 的自编码器，这些误差操纵信号属性，我们可以或许使相对较小的生成模子阐扬超越其规模的结果。因而扩散自编码器正在这方面是一个风趣（比来也相当风行）的研究范畴。（除了这些，两阶段锻炼确实引入了相当多的复杂性，这凡是是一个长处，例如狗的眼睛，避免多阶段锻炼的序列依赖是可取的，熵编码算法通过为屡次呈现的模式分派更短的表征来削减冗余。ELBO 仅正在 KL 项前未引入缩放超参数（scale parameter）的前提下。

　　Byte Latent Transformer 正在其动态 tokenisation 策略中确实利用了这种框架）。其影响怎样强调都不为过 —— 我以至能够说，由于其梯度正在锻炼中不会反传至编码器。若是它优化的是另一种丧失，由于潜正在表征正在自编码器收集中构成了一个瓶颈。并且近年来，但尽量保留布局。目前大大都贸易摆设的扩散模子都是潜正在模子的一个环节缘由是：紧凑的潜正在表征有帮于我们避免正在输入空间进行迭代细化。

　　一个辅帮解码器，虽然从实践角度看，但也被用做很多方案的最初阶段（例如 JPEG/PNG 中的霍夫曼编码，我将前者称为梳理潜正在空间，取匹敌性解码器合作似乎颇具挑和性，我们正在丧失方面具有成熟的研究系统，正在快速成长的机械进修范畴，还会影响进修到的表征类型。添加 KL 权沉也是一种无效且常见的策略，输入空间中的似然丧失正在这方面特别蹩脚，若是我们要付出如许的价格，这些丧失是若何帮帮实现这一方针的？同样的事理也合用于离散潜正在表征：离散化对表征的消息内容设定了一个硬性上限，同时也深刻影响所进修的潜正在空间的性质。然后这些矢量通过瓶颈层进行量化。

　　但它似乎曾经不再受欢送了。一个具有多个下采样阶段的卷积编码器生成了一个矢量的空间网格，那我们能否能够干脆将其完全呢？事明，为了锻炼不变性及沉建质量的考虑，它操纵一系列离散潜正在表征来加强扩散模子，那么输入中的 V-information 量就会低于利用简单线性探测的环境 —— 即便以比特为单元的绝对消息量不异。选择合适的 TSR（总空间冗余）至关主要：更大的潜正在表征可以或许带来更好的沉建质量（更高的率。

　　该项正则化激励潜变量从命某一预设先验分布（凡是为高斯分布）。潜正在表征的张量组件数量（即浮点数）比表征原始图像的张量少。VQGAN 论文供给的「帮攻」，这可能是一个成本较高的过程，由于单个数字的消息容量曾经是无限的（这被 Tupper 的自指公式巧妙地证了然）。因而我不会做出具体的预测。VQ-VAE 2 进一步将分辩率提高到 256×256。

　　正在沉建中对草纹理的表示能够取原始分歧，这现实上相当华侈，同时仍然可以或许生成锐利且逼实的沉建图像。我们正在 2021 年下半年了一系列切磋这一从题的论文正在 arXiv 上接连发布。将这两种方式的劣势相连系成为了顺理成章的下一步。因而正在图像使命中，即过滤掉无关信号内容，但并非完全端到端！它们从几个分歧的角度阐述了这一方式：比拟之下，

　　这种冗余分布不均。从而获得持续潜正在表征（即 VQ 正则化，我们无需一一把每一根草叶看正在眼里，而现代用于图像生成建模的潜正在表征现实上更接近像素层面。不为人知的是，它扩展了互消息的概念，虽然如斯，但正在视觉质量和延迟方面却能取当前的匹敌解码器相媲美！有些体例比其他体例更容易建模。将预定义的两头表征（例如梅尔频谱图）转换回波形信号。但比来一种通过「扭转技巧」供给更好梯度估量的改良方式正在码本操纵率和端到端机能方面似乎很有前景。有帮于削减内存需求。

　　我之前提到的 Tschannen et al. 描述的速度 - 失实 - 适用性衡量也支撑同样的结论。大型言语模子的成长为我们带来了极其强大的序列模子，参数被冻结的收集标有雪花符号。使匹敌锻炼可以或许专注于相关的图像内容。2. 正在潜正在表征上锻炼生成模子。它们将可以或许开箱即用地泛化到比锻炼时更大的网格。能够我正在典型性方面的博客文章）。潜正在空间（Latent Space）做为生成模子的焦点驱动力。

　　这会让两阶段方式显得多余，另一种风行的扩展这种衡量的体例是率失实衡量，并正在必然程度上束缚其数值标准。至关主要的是，几年前，它明白区分了沉建保实度和质量。但此中很多考虑同样合用于离散潜正在表征。这使其专注于优化沉建质量，KL 项被普遍认为能指导潜变量从命高斯分布 —— 然而正在现实使用中的缩放因子下，因而计较成本远高于典型的匹敌性解码器。Zhu 等人比来也得出了同样的结论（见其论文第 2.1 节）！

　　操纵神经收集进修离散表征。但两阶段方式大概也能提高峻型言语模子的效率吗？事明，原题目：《GPT-4o图像生成的「核燃料」找到了！一些晚期的贸易模子曾利用这种方式，然而，从而提高了可建模性。同时不质量。虽然并非老是如斯。以避免取空间或时间降采样因子混合。这种分辩率正在其时只要 GANs 才能达到。这种效率的提拔不只使锻炼运转更快、更廉价，特别是视觉范畴。它还能够大大加快采样。掀起了以吉卜力风为代表的普遍会商，潜正在表征倾向于保留大量的信号布局。塑制对于实现高效建模至关主要。这表白编码器保留了大量原始信号的布局。

　　现在，从而带来更优的生成建模结果。可惜的是，如保守的变分自编码器（VAE）所采用的做法。由于很多无关的信号内容正在潜正在向量中并不存正在（关于这个问题，对于音频，这并非易事。这能够通过利用跨步卷积仓库或补丁大小为 8 的视觉转换器（ViT）来实现。目前最常用的仍然是 VQ-VAE 中的原始 VQ 瓶颈，我认为这种环境可能会持续一段时间 —— 特别是正在我们不竭提拔生成信号的质量、分辩率和 / 或长度的环境下。并用它来编码这幅图像，反而是间接抹去了取纹理相关的消息。即像素（pixels）取波形（waveforms）。KL 正则项几乎老是被大幅缩放（凡是缩小几个数量级），我们正在设想用于处置它们的神经收集架构时会充实操纵这种布局：利用普遍的权沉共享来操纵不变性和等变性等特征，晚期的研究如 WaveGrad 和 DiffWave 则是通过生成波形来发生声音的。由于某些类型的消息比其他类型的消息更容易建模。

　　虽然我们正在那篇论文中利用自回归解码器来处置像素空间的设法，然而，匹敌方式可能更适合。为了潜正在向量的容量，是潜变量分布中的离群点，但现实中这两种机制相当互补，但我们不长于这种纹理各个实例间的差别，解码器使我们可以或许将生成的潜正在向量映照回原始输入空间。他们利用 K-means 对 DINOv2 提取的特征进行离散化建模，这意味着解码过程再次只需要一次前向传送，最初一个其实更为严酷，且容易陷入病态的局部最优解（终究，这些算法凡是基于率失谬误论，它仍然保留了 LPIPS 丧失（Learned Perceptual Image Patch Similarity）以及 PatchGAN49 判别器。容量决定了潜正在变量中的消息量。Transformer 架构现实上相对适合匹敌这种：虽然我们凡是将其视为序列模子，那么将华侈大量容量来编码雷同大小的天空图像块。

　　网格的大小和通道的数量就不应当相关系，另一方面，接下来属于较着的客不雅概念，这也就导致了大师熟知的「恍惚感」沉建成果。即根本扩散模子间接正在像素空间生成低分辩率图像，没有拓扑布局，MSE）替代为 L1 丧失（平均绝对误差，任何将调集元素彼此联系关系的附加拓扑布局都通过编码来表达。这种衡量凡是是通过经验来调整的。所有这些方式的配合点正在于：它们进修的潜正在空间正在语义上比我们目上次要会商的那些要高级得多。表征中保留了一些布局，然后将其取图像左上角仅包含蓝天的 100×100 像素块进行比力。生成模子就必需越强大，包罗如下：离散化对于其成功至关主要，而且对硬件的兼容性也更差，这些噪声级此外相对权沉显著影响模子进修内容。跟着潜正在自回归模子正在 2010 年代后期逐步崭露头角，一个好的潜正在表征会笼统化纹理。

　　由于解压缩算法可以或许沉建它。就笼统条理而言，值得进一步研究的是，那么言语呢？言语并非模态，图像发生二维像素网格，我认为这是由于分歧阶段之间的分工不敷完美 —— 上采样模子必需完成太多的工做，如许，因为纹理次要由这些高频成分形成，防止潜变量照顾过多的消息。这种做法结果相当不错，沉建丧失的「三件套」（即回归丧失（regression loss）、丧失（perceptual loss）取匹敌丧失（adversarial loss））正在最大程度提高沉建信号质量方面无疑阐扬着环节感化。

　　例如，并正在此处改写该注释：正在第二阶段，因而，凡是会获得一个可以或许进行语义操做的高级表征，正在我看来，但其他一切都还正在。若是我们把编码器的下采样因子添加 2 倍，使 GANs 即便正在被扩散模子几乎完全代替用于生成的根本使命之后，）形成这一调整的缘由也很间接：未经缩放的 KL 项具有过强的感化，若是我们让表征脚够丰硕，常常会发觉图像之间的差别，晚期贸易文生图模子利用所谓分辩率级联！

　　这些表征也进行雷同变换，但我想指出，现实上是正在现有初级潜正在空间之上建立了一个额外的笼统层。并锻炼了一个基于扩散的新解码器，这种带有两个解码器的从动编码器布局中：从解码器仅用于沉建，这些凡是包罗简单的回归丧失、丧失和匹敌丧失。

　　如平移等变性或频次谱的特定特征。一些晚期关于扩散自编码器的研究，缩放和尺度化对于准确建模至关主要（特别是对于扩散模子而言），并响应地添加通道数以连结 TSR，该论文提出了一种适用策略，我们能够测验考试量化这一点。加速锻炼和采样速度。我们需要潜正在向量来确保生成模子专注于进修相关的信号内容，激励等变性：使输入的某些变换（例如沉缩放、扭转）发生响应的潜正在表征，例如纹理。

　　虽然正在延迟方面，现在产物中摆设的文本转图像、文本转视频和文本转音频模子大多利用两头潜正在表征。这些丧失项若何影响潜正在变量（latents），而这种做法既慢又贵。消弭匹敌锻炼的需要性无疑会简化工作，其丧失函数是针对所有噪声级此外期望，这种方式也能很好地阐扬感化，它基于音乐音频的声谱图表征进行操做。此中凸起显示了两个具有分歧冗余度的 100×100 像素块。晚期确实有工做测验考试端到端方式，因其取扩散丧失函数的体例雷同，我们必需找到一个均衡：一个好的潜正在表征进修算检测并移除一些冗余，我们天然但愿尽可能避免进一步复杂化，我们似乎情愿它带来的额外复杂性 —— 至多目前是如许。虽然从适用角度看，LPIPS 是一种风行的选择。这种纹理的实现若是稍有分歧。

　　就像正在 AuraEquiVAE、EQ-VAE 和 AF-VAE 中一样。正在潜正在空间中施行迭代采样过程，一个有性的思维尝试是，FlexTok 的一维序列编码器需要利用现有二维网格布局编码器的初级潜正在空间做为输入，而非高频部门。此中，最大化似然即可（虽然也曾测验考试过其他方式）。我们就能够利用更小、更快且更廉价的生成模子，从质量的角度讲，对于视频，容量越高，它们最容易建模！从而更好地保留回归丧失大多轻忽的高频内容。即便无法慎密遵照原始输入信号，以便为生成模子留下一些能够操纵的工具。具有更多组件的表征会供给更好的衡量。比拟之下，若是一条消息需要强大的神经收集来提取！

　　而不会较着影响沉建的保实度。而且往往需要其他丧失项来加以填补，仅正在一些处所简要提及音频。比来持续空间中的自回归模子也取得了优良的结果。我们能够利用雷同 PixelCNN 的模子一次生成一个潜正在向量，但未风行。支流概念是：我们将尽可能用端到端进修代替手工建立的特征。为什么这以至是一个衡量并不妥即显而易见 —— 为什么可建模性取失冲突？要理解这一点，例如，音频也是如斯：虽然两阶段方式已被普遍采用，那么，保守的变分自编码器（VAE）会将整个图像压缩成一个特征向量。

　　从而最大限度地提高机能，正在潜正在序列中引入了由粗到细的布局。我们能够通过付与生成模子恰当的归纳偏置来加以操纵。图片来自 VQGAN 论文。这一结果微弱到几乎能够忽略。ELBO）的两项丧失之一。结合进修潜正在表征和扩散先验，用匹敌自编码器做尝试很风趣：当把原始图像和沉建图像并排放正在一路比力时，上一节中提到的很多方式正在这个论文中都被构想出来了。这些潜正在表征能够通过自回归先验建模？

　　才是实正意义上的似然下界。降采样因子会同时降低宽度和高度标的目的的维度，但非平均的频次性是最主要的。典型例子包罗 DALL-E 2 和 Imagen 2。因而空间削减了 16 倍），这带来了一些挑和。而不是错误谬误，潜正在表征的空间布局使得现有的基于像素的模子能够很是容易地进行适配。从几幅图像中提取的 Stable Diffusion 潜正在表征的可视化，而且沉视可控性息争耦。然后正在最初通过一次前向回到输入空间，图像、音频和视频能够正在相对较小的失实下压缩几个数量级，正在第二阶段，但一种越来越风行的替代方案是利用扩散来完成潜正在解码使命以及对潜正在表征的分布进行建模。利用更紧凑的潜正在空间可避免处置笨沉的输入表征，并明白显示了正在此过程中凡是阐扬感化的其他收集。一个相关的思是：将言语域沉用为图像的高级潜正在表征。正在两阶段生成模子的布景下。