В качестве основы при создании TSAC использован звуковой кодек Descript, который расширен для поддержки стереозвука и переведён на использование другой модели машинного обучения на базе нейронной сети с архитектурой "трансформер", позволившей увеличить степень сжатия за счёт реконструкции утерянных деталей с учётом модели человеческого слухового восприятия. Модель занимает около 200 МБ в сжатом виде и оформлена в детерминированной представлении, которое гарантирует получение одинакового результата независимо от используемых CPU/GPU и числа задействованных при вычислениях потоков.
Кодировщик может работать с использованием для вычислений только CPU (для ускорения поддерживаются инструкции AVX2), но для достижения высокой производительности рекомендуется задействовать GPU.
В текущем виде может применяться API CUDA для ускорения с использованием GPU NVIDIA на базе микроархитектур Ampere, ADA и Hopper (RTX 3090, RTX 4090, RTX A6000, A100 и H100), имеющих как минимум 4 ГБ видеопамяти. Для преобразования звуковых файлов перед кодированием применяется FFmpeg.
original | stereo 6.21 kb/s | ||
mono 4.71 kb/s | stereo 2.57 kb/s |
Дополнительно можно отметить обновление развиваемой Белларом утилиты ts_zip, предназначенной для эффективного сжатия текстовых данных, используя механизм предсказания токенов на основе системы машинного обучения и большой языковой модели RWKV 169M v4. При сжатии архива википедии утилита ts_zip позволила сжать данные в 7.3 раза, а при сжатии кода ядра Linux 1.2 - в 7.8 раз. Для сравнения уровни сжатия при использовании утилиты xz составили 4.7 и 5.5 раз, соответственно. Ценой высокой эффективности сжатия является низкая скорость сжатия и большие требования к ресурсам (минимум 4 ГБ ОЗУ). На системе с GPU RTX 4090 производительность сжатия составляет примерно 1 MB/s.
Источник: https://www.opennet.ru/opennews/art.shtml?num=61113
(opennet.ru, основная лента)