# 无损压缩全保真音频的语言建模基准测试 ## 摘要语言建模已成为多个领域。.

自回归"语言"模型（LMs）在原始波形上训练后可以被重新用于无损音频压缩，但先前的工作仅限于8比特音频，使得这类方法是否适用于实际设置（16/24比特）以及是否能与现有编码器竞争仍然是开放问题。我们在全保真音频上对基于LM的压缩进行基准测试，覆盖多个领域（音乐、语音、生物声学）、采样率（16kHz-48kHz）和比特深度（8、16、24比特）。标准样本级别标记化在更高比特深度上变得难以处理，原因是词表大小（16比特时65K；24比特时16.7M）。我们提出Trilobyte，一种用于全分辨率音频的字节级别标记化方案，将词表缩放从$O(2^{b})$改进到$O(1)$，从而实现了首个可处理的24比特基于LM的无损压缩。虽然LMs在8比特和16比特时一致地优于FLAC并获得最先进的压缩效果，但我们观察到随着比特深度超过8比特，压缩增益变得更加有限。