A Deepdub-para, avagy mi lesz veled magyar szinkron?!

2021. március 22. - merlinicus

Sok újságíró kollégánk fantáziáját mozgatta meg az elmúlt hetekben a Deepdub AI cég híre, mely szerint a cég tanácsadói közé bekerült a Warner-cégcsoport egyik korábbi vezetője. Sőt a 2021-es Farsangi Szinkronszemle záróbeszédében a Szinkron Alapszervezet elnöke, Rajkai Zoltán is megemlítette a startupot a szakmára leselkedő potenciális veszélyforrásként. (Sőt később a Blikkben is.)

Miért érdekes ez, ha eddig idehaza azt sem tudtuk, hogy létezik a cég?

A Deepdub ígérete szerint különböző filmes, videós tartalmakat lokalizál, azaz a helyi nyelvre ültet át mesterséges intelligencia és gépi tanulásos algoritmusok segítségével, méghozzá a beszélő saját hangszínén. A szinkronizálás relatíve hosszabb folyamatával szemben a Deepdub néhány perc vagy óra alatt elkészül a hanganyaggal. A sajtó értelmezése szerint így Tom Hanks hamarosan úgy fog magyarul megszólalni, hogy Kőszegi Ákos (vagy a Toy Story esetében Stohl András) helyett saját hangját használja - ezzel pedig drasztikusan átalakítja a szinkronizálás piacát.

Hogyan működik a technológia?

A mesterséges intelligencia és a különböző tanuló algoritmusok révén a cég feldolgozza az eredeti szöveget, a rendszer adattá alakítja az intonációt, az elmondott szöveget, lefordítja azt, és az eredeti beszélő hangján adja vissza, méghozzá a kiválasztott nyelven.

Miért van erre szükség?

Az alapötletet az a hazánkban idegen helyzet adta, hogy a filmek, sorozatok, dokumentumfilmek lokalizálása DRÁGA. (Egy német szinkron előállításának költsége a magyar többszöröse. A különbség jelentősebb, mint a megszokott bérkülönbség a két ország között.)

Ugyanakkor a sebesség alacsony, hiszen rengeteg emberi erőforrás kell hozzá. Egy rendkívül alacsony költségvetésű alkotás elkészítéséhez is kell legalább egy rendező (aki vágó, hangmérnök is egyben), valamint legalább egy szinkronszínész - és ha csak ketten vannak, akkor túlzottan elnyúlik a munkamenet, így a valóságban ennél több szakembert vonnak be.

Milyen helyzetekre tervezik ezt a megoldást?

A szoftver elsődleges célja a vállalati szektor kiszolgálása, hiszen segítségével sokkal könnyebben és olcsóbban hozható létre ugyanaz a reklám vagy bemutatkozó videó, akár a világ összes nyelvén. Ezt azért is érdemes kihangsúlyozni, mert a technológia egyáltalán nem tökéletes, de erről majd később.

A másik potenciálisan népszerű felhasználási terület a különböző hírműsorok vagy akár videómegosztón elérhető komolyabb tartalmak lehetnek. Mindkét tartalomtípusnak komoly fogyasztói bázisa van, amelyre a Deepdub joggal tekint potenciális ügyfélként.

A megoldás korlátai

Mielőtt elözönlenének bennünket a rémvíziók arról, hogy Bruce Willis Dörner Györgyé helyett a saját - valljuk be, kategóriákkal kevésbé macsó hangján - szólal majd meg, érdemes megnéznünk, hol tart ma a technológia.

Hozzávetőleg két évvel ezelőtt el is kezdtünk írni egy cikket arról, hogy egy amerikai kutatócsoport az úgynevezett “text to speech”, azaz a szövegből beszéd kialakításának területén ért el átütő sikereket. Az általuk létrehozott rendszer képes volt bármilyen angol szöveg felolvasására, méghozzá oly módon, hogy az átlag hallgató nem ismerte fel, hogy nem hús-vér ember beszél. Helyén volt az intonáció, megfelelő helyen voltak a szünetek, és kellően dallamos volt a felolvasás ahhoz, hogy a rendszer egy átlagos képességű és tapasztalatú narrátort helyettesíteni tudjon.

A rendelkezésre álló technológiához csak az előre megadott hangok közül lehetett választani. Emögött pedig pontosan a technológia korlátai sejlenek fel. A projektben résztvevő kutató csoport tagjainak beszámolói alapján legalább tízezer órát beszéltették azt a három-négy szinkronszínészt, akiknek választhatóak voltak a felolvasáshoz. A projekt során megalkotott szoftver ezeket a szövegeket vágta szét hangokra, majd azokat címkézte fel és tanulta meg összekötni oly módon, hogy abból szavak formálódhassanak.

Több dolog miatt sem kell azon aggódni, hogy a magyar szinkron koporsójába a Deepdub verné az utolsó szögeket. A jelenlegi technológia ugyanis nem képes arra, hogy hibamentesen, kiváló minőségben adja vissza az eredeti beszélő hangját a több tízezer órányi felolvasás nélkül. Azt senki nem tarthatja reálisnak, hogy Tom Hanks a következő néhány évét felolvasó esteken tölti, hogy a mesterséges intelligencia rendesen megtanulhassa használni az ő hangját.

Ha meghallgatjuk a Deepdub cég által készített, lokalizált hanganyagokat, melyeket szinkronnak azért nem mondanánk, akkor halljuk, hogy még egy átlagos híradó sem transzformálódik zökkenőmentesen. A rendelkezésre álló hanganyag szűkössége miatt a mesterséges intelligencia nem képes arra, hogy az adott nyelvre megfelelő hangsúlyozással, hibamentesen konvertálja a tartalmat. Ehhez pedig vegyük hozzá azt, hogy a szoftver egyelőre kizárólag narrációs környezetben működik, márpedig a filmekben ennél jóval nagyobb dinamikával dolgoznak a színészek. A mesterséges intelligencia bár képes megtanulni suttogni vagy kiabálni is, ugyanakkor ez már olyan kulturális különbségeket mutat az egyes beszélt nyelvek között, amelyek filmes környezetben használhatatlanná teszik a megoldást.

Egy másik jelentős különbség a két és a hang "összehangolása", azaz a tényleges szinkronizálás. A mesterséges intelligencia által alkotott tartalom nem passzol a szájmozgáshoz, ami a filmeket élvezhetőségét jelentősen csökkenti.

Ez a jövő?

Induljunk ki abból, hogy a jövőben az angoltudás általánossá válik a világ minden táján, így Magyarországon is, és a fiatalabb generációknak egyre nagyobb százaléka fogja elfogadni ezen a nyelven a tartalmakat. Ez alapján a technológia elsősorban azokra a nyelvekre fog fókuszálni, amelyeket a legtöbben beszélnek, így a spanyol, portugál, kínai, és természetesen az angol nyelvre. Mai ismereteink alapján valószínűtlen, hogy idegen nyelvekről a magyar nyelvre való lokalizálást dollármilliárdos üzletnek tekintené bárki is a világon, hogy ebbe megfelelő befektetést eszközöljön. Sokkal valószínűbb, hogy a kevesebb ember által beszélt nyelvű tartalmakat szeretnék majd angolosítani, vagy nagy világnyelvek közötti könnyebb átjárást biztosítanák.

Erre egy kivaló példa, hogy míg a japán anime rajzfilmekben gyakori, hogy férfi karaktereket nők szinkronizáljanak, addig ez az USA-ban készült változatok esetében ritkábban valósul meg (de nem példátlan). Tegyük hozzá, hogy ez a magyar fülnek még ritkábban hangzik jól. Az utolsó eset, amikor ez magyarul működött, az a régi Kacsamesék három kacsa gyereke volt, Pogány Judit nagyszerű tolmácsolásában.

Személy szerint attól semmiképpen nem tartanék, hogy a következő 5-10 évben drasztikusan változna meg a magyar szinkron működési háttere. Ha a Deepdub és versenytársai által fejlesztett technológiák hatással lesznek a piacra, azt jó eséllyel először a YouTube felületén fogjuk hallani, illetve a világcégek reklámjaiban tűnhetnek fel. Az ugyanis teljesen reális jövőképnek tűnik, hogy egy multinacionális vállalat - például a Vodafone, amely a világ számtalan országában készít és közvetít relatíve centralizált reklámokat - erre a technológiára építve saját hatáskörben intézi el a narrálást, hogy 50-nél is több lokalizált változat helyett egy központi verziót kelljen csak jóváhagyni.

Ennél messzebb persze nem merünk mi sem tekinteni, hiszen a technológia fejlődésével egy évtized távlatában már bármi elképzelhető. Simán előfordulhat, hogy 2031-ben már ennek a cikknek a folytatását is egy számítógép írja meg, míg én az 1990-es évek szinkron aranykorán merengek.

4 komment

steery 2021.03.23. 19:12:06

Ez akkor lesz igazán ütős, ha élő beszédet is lehet vele azonnal, valós időben szinkronizálni. Tehát mondjuk az amcsi vagy kínai elnök mond egy beszédet, élő adásban a világnak (például: Hamarosan a fejünkre esik egy bazi nagy meteor és mind meg fogunk halni!) és mi magyarul halljuk a búcsúüzit, a szlovákok szlovákul, a bantuk bantuul, stb.
Sejtésem szerint a deepdub technológia a deeppic technológiával lesz majd igazán hatásos, amikor a valós időben fordított szinkronhanghoz valós időben eltorzítják a képen a beszélő ember száját, hogy úgy mozogjon, mintha tényleg az adott nyelven beszélne! Ez lényegesen könnyebb feladat ugyanis, mint a szinkronhangot a szájmozgáshoz igazítani.

steery 2021.03.24. 11:39:12

@merlinicus: A deeppicet (mélykép) most találtam ki, ez még nem létezik! Csak akartam adni neki egy jól hangzó szót. De lehet, hogy jobban hangzana a deepmouth technológia (mélyszáj). És innen már csak egy kis lépés a deepthroat (mélytorok) valóra válása. (ez megint egy szóvicc, ne vedd komolyan!)
:-D

Válasz erre

merlinicus · http://szinkronjunkie.blog.hu 2021.03.23. 22:09:03

@steery: Ez mindenképpen izgalmas újítás és én is nagyon kíváncsian várom. Azért a filmes minőségtől még igen messze vagyunk, de 10 éven belül az sem kizárt.

A deeppic-et nem is ismertem, úgyhogy köszi a tippet!

merlinicus · http://szinkronjunkie.blog.hu 2021.03.24. 12:50:03

@steery: :DDDD

Az ötlet pedig nagyon hihetőnek tűnt. Nézz utána, hátha nincsen még ilyen technológia, aztán irány a startup-világ :)
(A mélyszájra már valószínűleg van :P )

mindenféle a magyar szinkronról

szinkronjunkie

szinkronjunkie

A Deepdub-para, avagy mi lesz veled magyar szinkron?!

A bejegyzés trackback címe:

Kommentek:

steery 2021.03.23. 19:12:06

merlinicus · http://szinkronjunkie.blog.hu 2021.03.23. 22:09:03

steery 2021.03.24. 11:39:12

merlinicus · http://szinkronjunkie.blog.hu 2021.03.24. 12:50:03

mindenféle a magyar szinkronról

szinkronjunkie

A Deepdub-para, avagy mi lesz veled magyar szinkron?!

Ajánlott bejegyzések:

A bejegyzés trackback címe:

Kommentek:

steery 2021.03.23. 19:12:06

merlinicus · http://szinkronjunkie.blog.hu 2021.03.23. 22:09:03

steery 2021.03.24. 11:39:12

merlinicus · http://szinkronjunkie.blog.hu 2021.03.24. 12:50:03