PANews 7. května zprávy, Xiaomi AI laboratoř uvedla na trh vícejazyčný model pro syntézu hlasu TTS OmniVoice, který využívá jednoduchou obousměrnou architekturu Transformer a podporuje syntézu hlasu ve 646 jazycích. Kvalita syntézy a rychlost inferencí v čínských a anglických scénářích překonává hlavní modely. Tento model je trénován na přibližně 580 000 hodinách z 50 open-source datových sad, používá dynamickou strategii upsampling pro jazykové zdroje s nízkou dostupností a v testech ve 24 a 102 jazycích překonává podobnost a srozumitelnost hlasu mnoha komerčních systémů, přičemž některé ukazatele se blíží nebo dokonce překonávají skutečný hlas. OmniVoice podporuje vícejazyčné klonování hlasu, přizpůsobení tónu, přizpůsobení referenčního zvuku se šumem, kontrolu sekundárního jazyka a opravy výslovnosti, a již byla zveřejněna na platformách jako Github a Huggingface se zdrojovým kódem pro trénink, inferenci a váhy modelu.
