# 无损压缩全保真音频的语言建模基准测试 ## 摘要 语言建模已成为多个领域。.
自回归"语言"模型(LMs)在原始波形上训练后可以被重新用于无损音频压缩,但先前的工作仅限于8比特音频,使得这类方法是否适用于实际设置(16/24比特)以及是否能与现有编码器竞争仍然是开放问题。我们在全保真音频上对基于LM的压缩进行基准测试,覆盖多个领域(音乐、语音、生物声学)、采样率(16kHz-48kHz)和比特深度(8、16、24比特)。标准样本级别标记化在更高比特深度上变得难以处理,原因是词表大小(16比特时65K;24比特时16.7M)。我们提出Trilobyte,一种用于全分辨率音频的字节级别标记化方案,将词表缩放从$O(2^{b})$改进到$O(1)$,从而实现了首个可处理的24比特基于LM的无损压缩。虽然LMs在8比特和16比特时一致地优于FLAC并获得最先进的压缩效果,但我们观察到随着比特深度超过8比特,压缩增益变得更加有限。
赞
评论
请
登录后发表观点
