Microsoft prezanton VALL-E, inteligjenca artificiale text-to-speech që mund të trajnohet në vetëm 3 sekonda
Studiuesit në Microsoft kanë prezantuar inteligjencën e re artificiale text-to-speech (TTS) VALL-E, e cila mund të trajnohet për të imituar zërin e cilitdo personi në vetëm 3 sekonda. Ndryshe nga gjeneruesit e tjerë të zërave, të cilët ngjanin si robotë, VALL-E ka një zë tepër human, dhe kjo gjë mund të mos jetë dhe aq pozitive.
Gjeneruesit TTS të cilët i kanë dhënë zë një prej mendjeve më të zgjuara në planet, Stephen Hawking, kanë ndryshuar shumë me kalimin e kohës. Kompanitë si Google, Meta dhe Microsoft kanë punuar në këtë hapësirë për t’i bërë produktet e tyre më të aksesueshme.
Gjeneruesit TTS mbështeten në manipulimin e valëve të tingullit në krijimin e të folurit. Nga ana tjetër, VALL-E, gjeneron një audio nga teksti dhe regjistrime të audiove të cilat i përdor për të përshtatur zërin në varësi të frazave. Ekipi i studiuesve tregon se regjistrimi i audiove mjafton të jetë 3 sekonda i gjatë për të vënë në punë VALL-E.
Teknologjia fillimisht u trajnua nga LibriLight, një audio-librari e cila u krijua nga Meta dhe përmbante rreth 60,000 orë gjuhë të folur në anglisht. VALL-E arrin me sukses të përshtasë audion 3 sekondëshe me zërin e një prej 7,000 njerëzve që ka trajnuar dhe më pas arrin të sjell një TTS tepër të ngjashëm me zërin e audios 3 sekondëshe.