Recunoastere vocalaRecunoaşterea vocală computerizată este un proces continuu, cu ani în care se înregistrează progrese minore. Chiar şi programe performante, cum e cazul celebrului Siri, inspiră poveşti ironice despre cum softul în discuţie mai dă rateuri.

 

 

 

Rick Rashid, Manager al Departamentului Cercetare de la Microsoft, a prezentat recent pe scurt starea în care se află software-ul dedicat recunoaşterii vocale în cadrul companiei din Redmond. Discursul lui, prezentat în octombrie în Tianjin, China, la Microsoft Research Asia's 21st Century Computing, a captat atenţia împătimiţilor de tehnologie din toată lumea, demonstrând că progresul este vizibil. Rashid a clarificat prin intermediul expunerii sale cronologice şi prin intermediul unei demonstraţii directe a capacităţilor de translaţie text-vorbire, că noile semne de progres sunt substanţiale şi impresionante.

După prezentare, acesta a spus că doreşte să se adreseze audienţei în chineză, utilizând un sistem de translaţie text-vorbire. El a arătat “cum luăm un text ce reprezintă discursul meu şi îl rulăm prin programul de translaţie. Este necesar un sistem text-vorbire pe care cercetătorii de la Microsoft l-au dezvoltat folosind un discurs de câteva ore al unui vorbitor nativ de chineză şi proprietăţi ale vocii mele luate dintr-un fişier de aproape o oră înregistrat anterior (în limba engleză), în acest caz înregistrările discursurilor mele anterioare.” Softul de redare a sunetelor asemănătoare vorbirii curente care a fost folosit, a fost capabil să menţină propria să cadenţă. Audienţa a aplaudat încântată când a văzut în ce măsură discursul tradus semăna cu vocea oratorului original. Cuvintele lui Rashid erau traduse instantaneu în chineză, prin intermediul sistemului de translaţie, menţinându-se stilul său de vorbire.



Pe scurt, demonstraţia a indicat faptul că tehnologia luat o turnură în trei paşi în care: (1) engleza vorbită poate fi trecută printr-o maşină de translaţie şi (2) vorbită în altă limbă cu (3) traducerea în cea de-a doua limbă păstrând cadenţa şi tonul vorbitorului.

Aceasta a încununat ultimii 60 de ani în care cercetătorii în domeniul computerelor au lucrat pentru a pune la punct un sistem care să  fie capabil să înţeleagă ce spune o persoană atunci când vorbeşte. Motivul pentru care cercetătorilor li s-a părut dificilă sarcina la început a fost datorat modului în care a fost abordată – ca o simplă potrivire de şabloane. Computerul ar fi trebui să  examineze undele produse de vorbirea umană şi să încerce să le potrivească cu undele asociate anumitor cuvinte. Totuşi vocile oamenilor sunt diferite, şi chiar aceeaşi persoană poate rosti aceleaşi cuvinte în feluri diferite.

Un alt punct de răscruce a apărut la sfârşitul anilor 1970, când cercetătorii de la Carnegie Mellon s-au concentrat pe recunoaşterea vocală folosind o tehnică ce putea utiliza date de la mai mulţi vorbitori pentru a construi modele de vorbire statistice. De-a lungul anilor ce au urmat, sistemele de vorbire au avansat din ce în ce mai mult, mulţumită în parte computerelor mai rapide şi abilităţii acestora de a procesa mai multe date.

Cu nu mai mult de doi ani în urmă, a continuat acesta, cercetătorii de la Divizia de Cercetare a Microsoft şi de la Universitatea din Toronto au raportat o mare realizare în procesul de recunoaştere vocală. Ei au utilizat tehnica Deep Neural Networks, modificată după comportamentul creierului uman, pentru a recunoaşte sunetele în felul în care o face creierul. Rezultatul a fost o rată de recunoaştere mai bună.

În ceea ce priveşte traducerea textului de către maşină, au fost îmbunătăţite capacităţile de traducere a paginilor web dintr-o limbă în alta. În demonstraţia lui Rashid, acesta spunea cuvinte în engleză, care erau transmise prin sistemul de translaţie şi ulterior redate în chineză. Acest lucru se făcea în doi paşi. “Primul pas : preia cuvintele mele şi le caută echivalentul în chineză şi, deşi nu unul simplu, acesta este pasul cel mai uşor”, spune el. “La pasul doi cuvintele sunt rearanjate pentru a se potrivi cu limba chineză, un pas important pentru o traducere corectă dintr-o limbă în alta”.

Rashid spune că rezultatele încă nu sunt perfecte. Mai sunt multe de făcut, dar tehnologia este suficient de promiţătoare pentru a creşte speranţa că spargerea barierei lingvistice este la o distanţă de ani şi nu de secole.

Totuşi Rashid nu este primul care a făcut o demonstraţie referitoare la tehnologia de traducere. Mai devreme în acest an, Craig Mundi, Manager pentru Cercetare şi Strategii la Microsoft, a captat imaginaţia audienţei la TechFest 2012, atunci când a prezentat un “cap” vorbitor bilingv. Numit “Monolingual TTS“, soft-ul Microsoft a fost capabil să  traducă discursul utilizatorului în altă limbă şi cu o voce similară cu a utilizatorului original.

Programul implica recunoaşterea vocii, urmată de traducere, urmată de o ultimă redare vorbită a textului în altă limbă. Demonstraţia a folosit un avatar al lui Mundi. O versiune sintetică a vocii lui Mundi, în engleză, a întâmpinat audienţa la Microsoft Research. Apoi vocea a rostit aceeaşi frază în mandarină. S-a observat că  fraza în mandarina a fost rostită cu vocea lui Mundi. Mundi a spus că visul lui este ca el să stea într-un birou şi să îşi trimită avatarul să întâmpine pe cineva în Beijing, el vorbind în engleză în timp ce avatarul vorbeşte în acelaşi timp în mandarină. “Ne dorim ca şi computerul să devină un traducător performant în timp real.”

Mai multe informaţii, aici.



Traducere realizată de Alina Grad după Microsoft wins applause for tone-preserving translation (w/ Video), cu acordul Phys.org.

Write comments...
symbols left.
You are a guest ( Sign Up ? )
or post as a guest
Loading comment... The comment will be refreshed after 00:00.

Be the first to comment.