Prezentare generală
Pe măsură ce populația activă se reduce datorită scăderii ratei natalității și a creșterii ponderii populației în vârstă, procesarea avansată bazată pe inteligență artificială (AI) – de exemplu, recunoașterea mediului înconjurător, luarea de decizii privind acțiunile necesare și controlul mișcării – se va impune în diverse domenii ale societății, precum în fabrici, activități logistice, asistență medicală, roboți de serviciu care operează în orașe și camere de supraveghere. Sistemele vor trebui să asigure procesarea avansată a inteligenței artificiale (AI) în timp real în diferite tipuri de programe. Mai precis, sistemul trebuie să fie încorporat în dispozitiv pentru a permite un răspuns rapid la mediul său care se află într-o continuă schimbare. Totodată, cipurile AI vor trebui să consume mai puțină energie în timp ce efectuează procesări AI avansate în interiorul dispozitivelor embedded, deoarece există limitări stricte în ceea ce privește generarea de căldură.
Pentru a răspunde acestor nevoi de pe piață, Renesas a dezvoltat DRP-AI3 (“Dynamically Reconfigurable Processor for AI3”) ca accelerator AI pentru procesarea de mare viteză a inferențelor AI, care combină consumul redus de energie și flexibilitatea cerută de dispozitivele edge (periferice). Această tehnologie de procesor accelerator reconfigurabil pentru AI, cultivată de-a lungul mai multor ani, este încorporată în seria RZ/V de microprocesoare destinate aplicațiilor AI.
RZ/V2H este un produs de ultimă generație din seria RZ/V, care atinge o eficiență energetică de aproximativ 10 ori mai mare decât cea a produselor anterioare. RZ/V2H este capabil să răspundă evoluției ulterioare a AI și cerințelor sofisticate ale aplicațiilor, precum cele pentru roboți. Articolul prezintă modul în care RZ/V2H rezolvă provocările legate de generarea de căldură, permite o viteză mare de procesare în timp real și atinge o performanță mai mare cu un consum mai mic de energie pentru produsele echipate cu AI.
Acceleratorul DRP-AI3 procesează eficient modelele AI de “pruning”
Pruning-ul este o tehnică obișnuită pentru îmbunătățirea eficienței procesării AI, aceasta eliminând calculele care nu afectează semnificativ precizia recunoașterii. Totuși, se întâmplă frecvent ca asemenea calcule, considerate neesențiale în ceea ce privește precizia recunoașterii, să apară, aleatoriu, în modelele AI. Acest lucru creează o discrepanță între paralelismul procesării hardware-ului și caracterul aleatoriu al pruning-ului, ceea ce face ca procesarea să fie ineficientă.
Pentru a rezolva această problemă, Renesas a optimizat acceleratorul său unic de inteligență artificială bazat pe DRP (DRP-AI) pentru pruning. Analizând relația dintre caracteristicile modelului de pruning și o metodă de pruning în ceea ce privește acuratețea recunoașterii în modelele AI tipice de recunoaștere a imaginilor (modele CNN), Renesas a identificat structura hardware a unui accelerator AI care poate atinge atât o acuratețe ridicată a recunoașterii, cât și o rată eficientă de pruning și a aplicat-o la proiectarea DRP-AI3. În plus, a fost dezvoltat un software pentru a reduce greutatea modelelor AI optimizate pentru acest DRP-AI3. Software-ul convertește configurația modelului de pruning aleatoriu în calcul paralel foarte eficient, ceea ce duce la o procesare AI de viteză mai mare. În particular, tehnologia de pruning extrem de flexibilă de la Renesas (tehnologie de pruning N:M flexibilă), care poate modifica dinamic numărul de cicluri ca răspuns la modificările ratei locale de pruning în modelele AI, permite un control fin al ratei de pruning în funcție de consumul de energie, viteza de operare și precizia de recunoaștere solicitate de utilizatori.
Caracteristicile unei arhitecturi heterogene în care DRP-AI3, DRP și procesoarele funcționează împreună.
- Procesare “multi-threaded” și “pipeline” cu accelerator AI (DRP-AI3), DRP și CPU-uri
- Aplicații robotice cu jitter redus și viteză mare cu DRP (hardware cablat logic, reconfigurabil dinamic)
Roboții destinați serviciilor, de exemplu, au nevoie de procesare AI avansată pentru a recunoaște mediul înconjurător. Pe de altă parte, procesarea bazată pe algoritmi care nu utilizează AI este, de asemenea, necesară pentru a decide și controla comportamentul robotului. Totuși, procesoarele embedded (CPU) actuale nu dispun de resurse suficiente pentru a efectua în timp real toate aceste forme diferite de procesare. Renesas a rezolvat problema prin dezvoltarea unei arhitecturi heterogene, care permite procesorului reconfigurabil dinamic (DRP), acceleratorului AI (DRP-AI3) și unității centrale (CPU) să lucreze împreună.
După cum se observă în figura 1, procesorul reconfigurabil dinamic (DRP) poate executa aplicații în timp ce comută dinamic configurația de conectare a circuitelor unităților aritmetice de pe cip la fiecare semnal de ceas, în funcție de conținutul care urmează să fie procesat. Deoarece sunt utilizate doar circuitele aritmetice necesare, DRP-ul consumă mai puțină energie decât în cazul procesării prin CPU și poate atinge o viteză mai mare. În plus, în comparație cu procesoarele, unde accesările frecvente ale memoriei externe datorate ratării memoriei cache și altor cauze vor degrada performanța, DRP poate construi din timp căile de date necesare în hardware, ceea ce duce la o degradare mai mică a performanței și la o variație mai mică a vitezei de operare (jitter) ca urmare a accesărilor de memorie.
DRP are, de asemenea, o funcție reconfigurabilă dinamic care schimbă informațiile de conectare a circuitului de fiecare dată când se schimbă algoritmul, permițând procesarea cu resurse hardware limitate, chiar și în aplicațiile robotice care necesită procesarea mai multor algoritmi.
DRP este deosebit de eficient în procesarea fluxurilor de date, cum ar fi recunoașterea imaginilor, unde paralelizarea și pipelining-ul îmbunătățesc direct performanța. Pe de altă parte, programe precum cele de decizie și control al comportamentului robotului necesită procesare în timp ce se schimbă condițiile și detalii de procesare ca răspuns la schimbările din mediul înconjurător. Este posibil ca procesarea software la nivelul CPU să fie mai potrivită pentru aceasta decât procesarea hardware, cum ar fi în cazul DRP. Este important să se distribuie procesarea în locurile potrivite și să se opereze coordonat. Tehnologia de arhitectură heterogenă de la Renesas permite ca DRP și CPU să lucreze împreună.
O prezentare generală a arhitecturii microprocesorului și a acceleratorului AI (DRP-AI3) este ilustrată în figura 2. Aplicațiile robotice utilizează o combinație sofisticată de algoritmi de recunoaștere a imaginilor bazate pe inteligență artificială și de algoritmi de decizie și de control fără inteligență artificială. Prin urmare, o configurație cu un DRP pentru procesarea AI (DRP-AI3) și un DRP pentru algoritmi non-AI va crește semnificativ randamentul aplicației robotice.
Evaluarea rezultatelor
(1) Evaluarea performanțelor de procesare a modelului AI
RZ/V2H echipat cu această tehnologie a atins un maxim de 8 TOPS (8 trilioane de operații de sumă de produse pe secundă) pentru performanța de procesare a acceleratorului AI. În plus, pentru modelele AI care au fost supuse procesului de pruning, numărul de cicluri de operare poate fi redus proporțional cu gradul de pruning, obținându-se astfel performanțe de procesare a modelelor AI echivalente cu un maxim de 80 TOPS în comparație cu modelele înainte de pruning. Această performanță este de aproximativ 80 de ori mai mare decât performanța de procesare a produselor RZ/V anterioare, o îmbunătățire semnificativă a performanței care poate ține suficient de mult pasul cu evoluția rapidă a AI (figura 3).
Odată cu accelerarea procesării AI, timpul de procesare pentru procesarea imaginilor pe bază de algoritmi fără AI, cum ar fi procesarea pre- și post-AI, se transformă într-un relativ blocaj. În cazul microprocesoarelor AI (AI-MPU), o parte a programului de procesare a imaginilor este transferată către DRP, contribuind astfel la îmbunătățirea timpului total de procesare a sistemului; (figura 4).
În ceea ce privește eficiența energetică, evaluarea performanțelor acceleratorului AI a demonstrat o eficiență energetică la cel mai înalt nivel din lume (aproximativ 10 TOPS per watt) la rularea principalelor modele AI; (figura 5)
Totodată, s-a demonstrat că aceeași procesare AI în timp real poate fi efectuată pe o placă de evaluare echipată cu RZ/V2H, fără ventilator, la temperaturi comparabile cu cele ale produselor concurente echipate cu ventilatoare; (figura 6)
(2) Exemple de aplicații pentru roboți
SLAM (Simultaneously Localization And Mapping – Localizare și cartografiere simultană), de exemplu, una dintre aplicațiile tipice pentru roboți, are o configurație complexă, care necesită operațiuni software multiple pentru recunoașterea poziției robotului în paralel cu recunoașterea mediului prin procesare AI. DRP-ul Renesas permite robotului să schimbe instantaneu programele, iar operarea în paralel cu un accelerator AI și CPU s-a dovedit a fi de aproximativ 17 ori mai rapidă în comparație cu operarea doar a unității centrale (CPU), în timp ce consumul de energie a fost redus la 1/12 din nivelul operării doar cu unitatea centrală.
Concluzie
Renesas a dezvoltat RZ/V2H, un procesor AI unic, care combină consumul redus de putere și flexibilitatea cerute de punctele finale, alături de capabilități de optimizare a modelelor AI prin pruning (eliminarea anumitor părți ale modelelor AI considerate redundante sau neesențiale), fiind de 10 ori mai eficient din punct de vedere energetic (10 TOPS/W) decât produsele anterioare.
Renesas va lansa produse în timp util, în concordanță cu evoluția AI, care se preconizează că va fi din ce în ce mai sofisticată și va contribui, totodată, la implementarea unor sisteme capabile să răspundă dispozitivelor finale (end-point) inteligent și în timp real.
Informații suplimentare
- RZ/V2H: https://www.renesas.com/rzv2h
- DRP-AI: Acceleratorul AI brevetat de Renesas – combină performanța înaltă a inferenței AI cu un consum redus de energie
Autor: Shingo Kojima, Sr Principal Engineer of Embedded Processing
Renesas Electronics Europe | https://www.renesas.com