Xiaomi uvádí open-source model pro klonování hlasu TTS OmniVoice pokrývající více než 600 jazyků

PANews 7. května zprávy, Xiaomi AI laboratoř uvedla na trh vícejazyčný model pro syntézu hlasu TTS OmniVoice, který využívá jednoduchou obousměrnou architekturu Transformer a podporuje syntézu hlasu ve 646 jazycích. Kvalita syntézy a rychlost inferencí v čínských a anglických scénářích překonává hlavní modely. Tento model je trénován na přibližně 580 000 hodinách z 50 open-source datových sad, používá dynamickou strategii upsampling pro jazykové zdroje s nízkou dostupností a v testech ve 24 a 102 jazycích překonává podobnost a srozumitelnost hlasu mnoha komerčních systémů, přičemž některé ukazatele se blíží nebo dokonce překonávají skutečný hlas. OmniVoice podporuje vícejazyčné klonování hlasu, přizpůsobení tónu, přizpůsobení referenčního zvuku se šumem, kontrolu sekundárního jazyka a opravy výslovnosti, a již byla zveřejněna na platformách jako Github a Huggingface se zdrojovým kódem pro trénink, inferenci a váhy modelu.