BASE TTS BASE TTS BASE TTS
BASE TTS BASE TTS TTS
BASE TTS
BASE TTS 是一个多语言、多说话人的大型 TTS(LTTS)系统,在约 10 万小时的公共领域语音数据上进行了训练。它是目前为止最大的 TTS 模型,具有 10 亿参数,并在由 10 万小时公共领域语音数据组成的数据集上进行了训练。在主观评估中,BASE TTS 的表现优于公开的 LTTS 基线模型。研究者提出了 BASE TTS,这一模型在不同变体的基准上显示出了其在涌现能力方面的优势。此外,BASE TTS 还提出了一种通过 WavLM SSL 模型建立的新型离散语音表示法,用于捕捉语音信号的音位和韵律信息。