USDT第三方支付平台

菜宝钱包(caibao.it)是使用TRC-20协议的Usdt第三方支付平台,Usdt收款平台、Usdt自动充提平台、usdt跑分平台。免费提供入金通道、Usdt钱包支付接口、Usdt自动充值接口、Usdt无需实名寄售回收。菜宝Usdt钱包一键生成Usdt钱包、一键调用API接口、一键无实名出售Usdt。

原题目:逾越最新视频压缩尺度H.266,字节跳动编码新手艺让视频缩小13%

机械之心宣布

机械之心编辑部

团结视频专家组 JVET 官网显示,字节跳动设立在美国的研发团队于今年头提议了一项视频压缩手艺提案,并命名为 DAM(Deep-filtering with Adaptive Model-selection)。相比 H.266/VVC 最新尺度,DAM 能够为视频编码性能带来显著提升,亮度信号 Y 可实现 10.28% 的性能增益。两个色度信号 U 和 V 的性能增益也划分到达 28.22% 和 27.97%。这是业界公然的单个智能编码工具的最佳性能增益。

视频编解码是视频应用的底层焦点手艺,作用是对图像举行压缩和数字编码,以尽可能小的带宽传送尽可能高质量的视频数据。H.264 是现在被普遍使用的视频编解码尺度,在一致视频质量下,H.265/HEVC 尺度可以让视频体积减小一半。H.265 尚未完全普及,新一代尺度 H.266/VVC 比 H.265 让视频又减小一半。

这并不是视频编码手艺的终点。

今年头,字节跳动先进视频团队(AVG)向团结视频专家组 JVET 提议了一项 JVET-U0068 手艺提案,可以为视频压缩的三个颜色分量(Y, U, V)划分实现约 10%、28%、28% 的性能增益,这是业界公然的单个智能编码工具的最佳性能增益。在优化压缩质量的同时,视频体积相比 H.266 最新尺度至少还可以缩小 13%。就其现实效果而言,若是新手艺得以应用,与现在主流的 H.264 尺度相比,我们看同样质量的视频,约莫只需要 22% 的带宽和存储空间。

这项手艺名为 DAM(Deep-filtering with Adaptive Model-selection),它是通过深度学习手艺构建削减视频压缩失真的滤波器,主干是基于残差单元堆叠的深度卷积神经网络,辅以自顺应模子选择以最洪水平顺应特征庞大的自然视频。该手艺由字节跳动 AVG 的美国加州研发团队实现,成员来自高通、英特尔、微软等巨头以及海内外多家顶级院校。

我们先从下图示例中对比 H.264 与 H.266+DAM 的视频压缩效果:

可以看到,相同压缩比条件下,H.266+DAM 编码压缩质量远远优于 H.264。

除了视频压缩质量提升之外,应用 DAM 手艺可以比H.266再缩小 13% 的数据体积,以下图片来自国际尺度组织的测试视频。其中,图(左)为原图,每像素 12 字节;图(中)使用 VTM11.0 压缩(qp=42),每像素 0.00216字节,峰值信噪比 27.78dB;图(右)使用 VTM11.0+DAM(qp=42),每像素 0.00184 字节,峰值信噪比 28.02dB。

对比图(中)和图(右)可以看出,应用 DAM 手艺后,图(右)压缩比更高,峰值信噪比(客观质量)更好,主观质量也相对更好。

图1. 左:原图, 12bpp,中:VTM-11.0压缩,QP42,0.00216bpp,27.78dB,右:VTM-11.0+DAM,QP42, 0.00184bpp,28.02dB

手艺细节

DAM 的构建方式

提案 JVET-U0068 所先容的 DAM 是字节跳动 AVG 此前一项提案 JVET-T0088 的扩展版本。

在详细实现上,为了减轻深度网络的训练难度,DAM 算法行使残差单元作为基本模块,并多次堆叠来构建最终网络。所谓残差单元是指通过引入跳层毗邻,允许网络把注重力放在转变的残差上。为了处置差异类型的内容,新手艺针对差异类型的 slice 和质量级别训练差异网络。此外,还引入了一些新特征来提高编码性能。

图 1:(a)是卷积神经网络滤波器的架构,M 代表特征图的数目,N 代表特征图的空间分辨率;(b)是(a)中残差块的结构。

DAM 滤波方式的主干如上图 1 所示,为了增添感受野,降低庞大度,此方式包罗一个步幅为 2 的卷积层,该层将特征图的空间分辨率在水平偏向和垂直偏向都降低到输入巨细的一半,这一层输出的特征图会经由若干顺序堆叠的残差单元。最后一个卷积层以最后一个残差单元的特征图作为输入,输出 4 个子特征图。最后,shuffle 层会天生空间分辨率与输入相同的滤波图像。

与此架构相关的其他细节如下:

,

Usdt第三方支付接口

菜宝钱包(www.caibao.it)是使用TRC-20协议的Usdt第三方支付平台,Usdt收款平台、Usdt自动充提平台、usdt跑分平台。免费提供入金通道、Usdt钱包支付接口、Usdt自动充值接口、Usdt无需实名寄售回收。菜宝Usdt钱包一键生成Usdt钱包、一键调用API接口、一键无实名出售Usdt。

,

新特征:自顺应模子选择

在 JVET-T0088 的卷积神经网络结构基础上,JVET-U0068 引入了以下几种新特征:

  • 其次,当某个 slice 或者 CTU 单元确定使用基于卷积神经网络的滤波器时,可以进一步确定使用三个候选模子中的哪个模子。为此目的,使用 {17,22,27,32,37,42} 中的 QP 数值训练差异模子。将编码当前 slice 或 CTU 的 QP 记作 q,那么候选模子由针对 {q,q-5,q-10} 训练的三个模子组成。选择历程基于率失真价值函数,然后将相关模式表征信息写入码流;
  • 第三,基于卷积神经网络的滤波器在所有层都被启用;
  • 最后,现有滤波器中的去块滤波和 SAO 被关掉,而 ALF(和 CCALF)则被置于基于卷积神经网络滤波器后面。

在线推断及训练

推断历程中使用 PyTorch 在 VTM 中执行 DAM 深度学习的在线推断,下表 1 是凭证 JVET 建议给出的网络信息:

表 1。

训练历程中以 PyTorch 为训练平台,接纳 DIV2K 和 BVI-DVC 数据集,划分训练针对 intra slice 和 inter slice 的卷积神经网络滤波器,而且训练差其余模子以顺应差其余 QP 点,训练阶段的网络信息凭证 JVET 建议列于下表 2 中。

注重,当训练 inter slice 滤波器时,展望信息也被用作输入,而在 JVET-T0088 中,它仅用于 intra slice。

表 2。

下图 2 给出了训练集和验证集损失函数的一个示例。

图 2。

实验效果:三个颜色分量(亮度 Y 和色度 Cb、Cr)性能增益显著

思量到 VTM-9.0 和 VTM-10.0 之间的细小差异,并凭证 JVET 界说的通例测试条件,在 VTM-9.0 上测试了字节跳动 AVG 的 DAM 手艺提案,测试效果如下表 3 和表 4 所示。

效果显示,在 RA 构型下,Y、Cb 和 Cr 的 BD-rate 节约划分为 10.28%、28.22% 和 27.97%;在 AI 设置下,对 Y、Cb 和 Cr 划分可带来 8.33%、23.11% 和 23.55% 的 BD-rate 节约。

表 3:AVG 提案在 VTM9.0(RA)上的性能显示。

表 4:AVG 提案在 VTM9.0(AI)上的性能显示。

总结

实测证实,字节跳动 AVG 的这项视频编码手艺创新,可以让视频的数据体积相比 H.266 最新国际尺度再缩小 13%。对视频服务商来说,存储和带宽成本将显著降低;对用户来说,在网速较慢的情形下也可以流通旁观高清视频。

但正如前文所述,早在 2013年正式通过的 H.265,现在还没有完全普及。一方面,高昂的专利授权用度导致生产硬件装备和生产内容的厂商无法肩负,用户也只能买并不支持 H.265 尺度的装备;另一方面,H.265 的专利收费很庞大,想要使用 H.265 得划分多次缴专利费。因此,现在最常见的照样 18 年前的 H.264 尺度。

Allbet Gaming声明:该文看法仅代表作者自己,与www.allbetgame.us无关。转载请注明:usdt提币免手续费(www.caibao.it):逾越最新视频压缩尺度H.266,字节跳动编码新手艺让视频缩小13%
发布评论

分享到:

usdt充提教程(www.caibao.it):聚集信托刊行、确立规模2月均大幅下降超30%
你是第一个吃螃蟹的人
发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。