Valós időben fordít jelnyelvet a Lenovo AI technológiája

0
45

Az úttörő technológia, amelyet a Lenovo Tech World rendezvényén mutattak be, az úgynevezett „gépi látást” és egy saját AI motor használ a Libras, azaz a Brazil jelnyelv valós idejű értelmezésére és fordítására.

A Lenovo Tech World rendezvényén egy Gabriel nevű szoftverfejlesztő lépett a színpadra, üdvözölve Yuanqing Yang elnököt és vezérigazgatót a Libras, a hivatalos brazil jelnyelv használatával. Míg YY – ahogyan a Lenovonál ismerik – nem ismeri a Librast, Gabrielt mégis tökéletesen megértette, köszönhetően az új AI alapú technológiának. Egy kamera rögzítette Gabriel kezének precíz mozgását, miközben egy eredeti AI-motor valós idejű szöveg- és hangfordítást készített. A Gabriel és YY közötti nyelvi akadály szinte azonnal feloldódott, zökkenőmentes és személyes kapcsolatot teremtve.

Ez a fordítási módszer, egy úttörő megoldás, köszönhetően gyorsaságának – ugyanis minden valós időben történik, delay nélkül. Az új technológia számtalan ember életét átalakítja, köztük a 2,3 millió brazíliai süket vagy nagyothalló emberét.

Ez a skálázható megoldás jól példázza az akadálymentesítés és a befogadás új, mesterséges intelligencia által vezérelt paradigma létrehozásának lehetőségét. „Kiváltság, hogy ilyen jelentőségteljes munkát végezhetünk brazíliai közösségeink szolgálatában, és mindenki számára átadhatjuk a Lenovo mesterséges intelligenciáról alkotott vízióját.” – mondta Hildebrando Lima, a Lenovo brazil kutatási és fejlesztési igazgatója.

Az úgynevezett R&D team (magyarul K+F: kutatás-fejlesztés) ezt a mesterséges intelligencia-megoldást azért hozta létre, hogy megkönnyítse az interakciókat olyan esetekben, amikor jelnyelvi tolmács nem érhető el – az üzlethelyiségektől a kórházakig – az autonómia növelése és a kapcsolatteremtés segítése érdekében.

A Tech World színpadán nem látott Lenovo edge szerverek biztosították a mesterséges intelligencia futtatásához és Gabriel üdvözletéhez szükséges számítási teljesítményt. Opcionális, hogy felhőalapú számítást, vagy edge szervereken való számítást szeretne a felhasználó, ugyanis a technológia mindkettőn működik.

A bemutató részben a koncepció működésének bizonyítéka volt – különösen Gabriel mesterséges intelligencia hangja, amelyet saját családja választott ki 13 egyedi opció közül –, de a mögöttes technológia négy év fejlesztés után eléggé kiforrott. A Libras-t használó siketek és nagyothallók tucatjai már több ezer órányi anonimizált videoadattal járultak hozzá az oktatókészlet felépítéséhez és az AI továbbfejlesztéséhez.

Kulcsfontosságú kutatás-fejleszés

A Lenovónál 2019-ben egy belső csapatmegbeszélés során egy Libras nyelvet folyékonyan beszélő szoftverfejlesztő számos napi akadálymentesítési problémára hívta fel a figyelmet, és majd jelezte a cég felé, hogy tegyen többet a siket közösség függetlenségének és életminőségének javítása érdekében.

„Vállalatként elkötelezettek vagyunk amellett, hogy intelligensebb technológiát biztosítsunk mindenki számára, és ez azt jelenti, hogy előtérbe helyezzük az inkluzivitást, valamint ügyfeleink és közösségeink sokszínűségét” – mondta Lima. – „Elfogadtuk a kihívást.”

A brazíliai Lenovo csapat egy megoldás kifejlesztésén kezdett gondolkodni: egy valós idejű fordítói csevegőeszközön, amely lehetővé teszi a siketek vagy nagyothallók számára, hogy bejelentkezzenek az eszköz kamerájába, miközben egy algoritmus azonnali fordítást végez Librasból írott vagy beszélt portugál szövegre. A generatív mesterséges intelligencia és a többnyelvű adatkészletek elterjedtségének köszönhetően ma már sok más nyelvvel is működik a technológia.

A valós idejű videorögzítés és nyelvek közötti fordítás azonban megdöbbentő mennyiségű adatot generál– ezek közül nem utolsósorban az egyes szavak egyedi gesztusai és az egyes mondatok szintaxisa. Ahogy a beszélt nyelveken, például az angolon belül a regionális akcentusok drámaian eltérőek lehetnek, a Librason belül a mozgások és stílusok is különbözhetnek egymástól.

„Csak a videórögzítéssel rengeteg akadály jár – beleértve a személy bőrszínét, háttérszínét, megvilágítását, ruházatát, az aláíró gesztusainak sebességét és a kezek testhez viszonyított helyzetét –, hogy csak néhányat említsünk. Ráadásul nem minden kamera rendelkezik ugyanolyan szintű mélységérzékeléssel.” – mondta Lima.

Az adatokkal kapcsolatos kihívás leküzdése érdekében a Lenovo együttműködött a brazil innovációs központtal, a CESAR-ral, megosztva a videók rögzítésével és katalogizálásával kapcsolatos szakértelmét, ezzel megalapozva ezt a megoldást. A Lenovo és a CESAR azóta több ezer Libras-videóból álló adatkészletet halmozott fel, hogy megtanítsa az alapvető algoritmust az egyes gesztusok azonosítására és kontextusba helyezésére. Ezután a Lenovo vezette az utat a megoldás középpontjában álló áttörést jelentő mesterséges intelligencia kifejlesztésében.

Az AI felismeri a kéz helyzetét és a „beszélő” ujjainak digitális artikulációs pontjait is. Ezeknek a mozdulatoknak és gesztusoknak a feldolgozása után az AI pontosan azonosítani tudja a mondat menetét, és gyorsan szöveggé alakítja a jelnyelvet.

A csapat együttműködött a Lenovo Product Diversity Office-szal (PDO), amelynek küldetése az, hogy a Lenovo termékei mindenki számára megfelelőek legyenek, függetlenül azok fizikai adottságaitól vagy képességeitől. Az OEM inkluzív tervezési szakértői segítettek azonosítani a potenciálisan aggodalomra okot adó területeket – például a bőrtónust, a hajstílust, végtaghosszúságokat stb. –, és megbizonyosodtak arról, hogy a termék bizony ezeket is figyelembe veszi, jól kezeli őket.

Valódi, megbízható megoldások

Nemrég egy Brazil rendezvényen, amelyen a Lenovo munkaterületekbe való beilleszthetőséget vizsgálták, a Lenovo K+F csapatának egyik tagja hallotta egy siket ember történetét, aki gyermekkoraában nem tudott teljes mértékben kommunikálni szüleivel. Nagy kihívásokkal kellett szembenéznie, nagymértékben támaszkodva jelnyelvi tolmácsokra, akik nem voltak mindig elérhetőek – különösen otthon nem.

„Képzeld el, hogy egész gyerekkorodban képtelen vagy „csak beszélgetni” a barátaiddal vagy a szüleiddel, vagy a munkahelyi kollégáiddal” – mondta Lima. „Ez az a fajta intim, családi, oktatási és munkahelyi befogadási forgatókönyv, ahol ez a megoldás sokat változtathat.”

A Lenovo kutatás-fejlesztési csapata hangsúlyozta, hogy a megoldásnak nem célja, hogy leváltsa az olyan embereket, akik Librát vagy más jelnyelvet tanultak, sokkal inkább áthidalja a meglévő kommunikációs hiányosságokat. Ezen túlmenően a mesterséges intelligencia ténylegesen felhasználható a jelnyelv tanulásának felgyorsítására, számítógépes látás segítségével a gesztusok pontosságának nyomon követésére és a felhasználók „utasítására” a beállítások elvégzésére. A ’hordható technológián’ vagy a kiterjesztett valóságon keresztül az emberek magával ragadó tanulási tapasztalatokat szerezhetnek az edzőként működő mesterséges intelligencia segítségével.

A limai kutatás-fejlesztési csapat a Lenovo Infrastructure Solutions Grouppal együttműködve egy élvonalbeli számítástechnikai megoldást talált. Kizárólag a felhőre támaszkodni azonban nem lenne célszerű, ugyanis egy reptéren vagy kórházban nem feltétlen van szupergyors internet. Az edge-et hívták segítségül, ami összhangban van a Lenovo ’zsebből felhőbe’ (pocket-to-cloud) portfóliójával, amely az AI-t az adatok forrásához, illetve az ügyfelek kezébe varázsolja.

A következő lépés a projekt volumenének növelése. Több adatpontra lesz szükség a valós idejű jelnyelvi fordítói felület nagyarányú kiépítéséhez. A csapat öntanuló algoritmusokat és más technológiákat vizsgál a fejlesztés felgyorsítása érdekében, teszi ezt különösen a felhasználói bázis és az adatkészletek növekedésével.

A Lenovo azt is vizsgálja, hogyan lehet a fordítási megoldást speciális iparági ágazatokhoz, például pénzügyekhez vagy kiskereskedelemhez szabni, mivel az adatkészletek finomabban hangolhatók és optimalizálhatók az ideális felhasználói élmény biztosítása érdekében. Ahogy a megoldás fejlődik és inspirálja a még inkluzívabb technológiát, úgy a több mint 430 millió siket és nagyothalló személy világszerte érezheti a mesterséges intelligencia mélyreható potenciálját.

techkalauz.hu – az online techmagazin

HOZZÁSZÓLOK A CIKKHEZ

Kérjük, írja be véleményét!
írja be ide nevét