AudioLCM

AudioLCM AudioLCM Latent Consistency Model

2024-01-01 2 分钟阅读

AudioLCM

AudioLCM是一种高效、优质的文本到音频生成模型，利用潜在一致性模型（Latent Consistency Model）实现。该项目提供了PyTorch实现和预训练模型，并在GitHub和HuggingFace上开源。其主要特点在于能够快速生成高保真度的音频样本。

使用场景

文本到音频的生成 ：可以根据输入的文本描述生成相应的音频。
语音合成与转换 ：尤其适用于需要高质量语音输出的应用，如语音助手、音频读物等。
多媒体内容创作 ：可用于游戏、动画和电影配音等多媒体内容创作领域。

快速开始

要在本地环境中使用AudioLCM，需保证有NVIDIA GPU和CUDA cuDNN。首先克隆项目仓库，然后下载所需的预训练模型权重并放置在指定路径中。

支持的数据集和预训练模型

权重文件可以从Huggingface下载，包括audiolcm.ckpt、BigVGAN vocoder等。

依赖项

需要安装项目依赖，详见requirement.txt。

预训练模型推理

使用下面的命令进行推理：

python scripts/txt2audio_for_lcm.py –ddim_steps 2 -b configs/audiolcm.yaml –sample_rate 16000 –vocoder-ckpt vocoder/logs/bigvnat16k93.5w –outdir results –test-dataset audiocaps -r ckpt/audiolcm.ckpt

训练

数据集准备 ：将数据集信息构建成tsv文件，包括音频ID、数据集名称、音频路径、音频描述、melspec文件路径。
生成melspec文件 ：根据已有tsv文件生成melspec文件。
训练变分自编码器（VAE） ：根据准备好的数据集进行VAE训练。
训练潜在扩散模型 ：使用训练好的VAE检查点，进行扩散模型训练。

评估

生成样本后，可以计算FD、FAD、IS、KL等指标，以及Clap_score。

致谢

该实现参考了多个开源项目，如Make-An-Audio、CLAP等。

引用

如果您在研究中使用了该代码，请考虑引用以下文献：

@misc{liu2024audiolcm, title={AudioLCM: Text-to-Audio Generation with Latent Consistency Models}, author={Huadai Liu and Rongjie Huang and Yang Liu and Hengyuan Cao and Jialei Wang and Xize Cheng and Siqi Zheng and Zhou Zhao}, year={2024}, eprint={2406.00356}, archivePrefix={arXiv}, primaryClass={eess.AS} }

声明

禁止任何组织或个人未经允许使用本文所提及的技术生成他人声音，包括但不限于政府领导人、政治人物和名人，以免违反相关法律。

AudioLCM

使用场景

快速开始

支持的数据集和预训练模型

依赖项

预训练模型推理

训练

评估

致谢

引用

声明

本指南使用到的工具