Înțelegerea hardware-ului și software-ului asigură soluții AI de înaltă performanță pentru sisteme embedded

by gabi
Înțelegerea hardware-ului și software-ului

Înțelegerea hardware-ului și software-ului asigură soluții AI de înaltă performanță pentru sisteme embedded

Inteligența artificială (AI) a devenit unul dintre principalii catalizatori ai inovării tehnologice. Performanța ridicată a infrastructurilor de calcul în cloud a permis dezvoltarea unor agenți inteligenți capabili să preia controlul și să optimizeze procese critice de business.

Dezvoltatorii și utilizatorii sistemelor embedded care controlează procese industriale și alte aplicații în timp real pot utiliza infrastructura cloud pentru a valorifica capabilitățile AI. Totuși, crește nevoia de procesare AI la nivel local, pentru a elimina dependența de o conexiune permanentă și neîntreruptă la serverele cloud. Ca răspuns, numeroși furnizori de semiconductori au integrat acceleratoare AI dedicate în procesoare multinucleu de uz general.

Performanța acestor acceleratoare integrate este limitată de bugetul de putere și de suprafața de siliciu disponibile. În consecință, există un decalaj între capabilitățile oferite la nivel local și cele disponibile în cloud. Diferența devine tot mai evidentă în contextul modelelor mari de AI generativă, care stau la baza aplicațiilor agentice moderne și permit integrarea interfețelor în limbaj natural în diverse aplicații.

De la cloud la AI local: necesitatea procesării la nivel edge

Evoluția constantă către modele AI mai eficiente a condus la dezvoltarea unor arhitecturi precum MobileNet pentru recunoașterea imaginilor, capabile să susțină aplicații în securitate, retail, logistică și automatizare industrială. O abordare similară, orientată către reducerea dimensiunii și optimizarea eficienței computaționale, a permis dezvoltarea unor modele generative mai compacte, care pot înlocui arhitecturi mult mai mari, precum Llama2-7B. TinyLlama, de exemplu, necesită mai puțin de 3 miliarde de parametri.

Dezvoltarea unor modele de AI mai eficiente a avansat odată cu optimizările hardware capabile să ofere performanță ridicată pe platforme cu resurse limitate. Qualcomm este unul dintre liderii tehnologici în acest domeniu. Echipa sa a realizat evaluări ample ale unor tehnici precum pruning și microscaling, care reduc sarcina computațională. Microscaling, de exemplu, înlocuiește operațiile în virgulă mobilă cu aritmetică pe numere întregi, mai eficientă din punct de vedere hardware, bazată pe operanzi de dimensiuni reduse. Achiziția recentă a companiei Edge Impulse, specializată în optimizarea AI pentru hardware cu consum redus de energie, completează această direcție strategică.

Optimizarea modelelor AI pentru hardware cu resurse limitate

Această experiență a oferit companiei Qualcomm o perspectivă extinsă asupra tehnicilor de optimizare a modelelor, care se aplică în prezent și AI generative. Echipa de ingineri Qualcomm a jucat un rol esențial în perfecționarea tehnicii de decodare speculativă, ca metodă de îmbunătățire a latenței și eficienței modelelor lingvistice de mari dimensiuni (LLM). Tehnica distribuie execuția între un model local de dimensiuni reduse și un model găzduit în cloud, accelerând astfel execuția globală.

Înțelegerea decodării speculative și a altor funcții AI optimizate pentru aplicații edge și embedded a stat la baza arhitecturii hardware dezvoltate de Qualcomm în ultimul deceniu. Implementată inițial pe platformele pentru telefoane inteligente Snapdragon, această arhitectură se extinde acum către automatizarea industrială prin familia Dragonwing.

Optimizarea modelului are limite atunci când vine vorba de portarea unui model AI de înaltă performanță pe platforme embedded. Procesoarele Snapdragon și Dragonwing acoperă această lacună. În timp ce multe soluții concurente pot oferi până la 10 trilioane de operații pe secundă (TOPS), generația IQ9 din familia Qualcomm poate depăși 100 TOPS. Acest nivel de performanță permite rularea nu doar a modelelor TinyLlama și a altor LLM-uri cu amprentă redusă, ci și a modelului Llama2 complet, cu 13 miliarde de parametri. Aceste modele mari pot rula la o viteză de peste 10 token-uri pe secundă, permițând utilizarea locală a AI-ului generativ pentru interfețe în limbaj natural.

Arhitectura Hexagon și eficiența energetică

Eficiența energetică reprezintă un alt punct forte al arhitecturii Hexagon, care stă la baza suportului AI al platformei Dragonwing. Aceasta oferă optimizări semnificative ce extind autonomia sistemelor alimentate cu baterii între ciclurile de încărcare. Un exemplu este inferența de tip micro-tile, care utilizează arhitectura de bază a coprocesorului Hexagon, organizată în jurul unor motoare de execuție ce partajează o memorie centrală comună.

Inferența micro-tile permite rularea unui model de dimensiuni reduse pentru perioade îndelungate într-o stare cu consum energetic scăzut. Acest model poate fi utilizat pentru detectarea anumitor tipuri de sunete sau mișcări într-o imagine capturată de o cameră. În funcție de rezultat, modelul de dimensiuni reduse poate activa sarcini de procesare mai performante pentru analiza detaliată a datelor de intrare. Arhitectura cu memorie partajată le permite dezvoltatorilor să valorifice eficient tehnici precum fuziunea straturilor, utilizată de MobileNet și alte modele similare. Prin procesarea simultană a mai multor straturi, fuziunea reduce numărul de accesări ale memoriei externe, ceea ce conduce la economii semnificative de energie comparativ cu alte arhitecturi și implementări.

Motoarele de execuție Hexagon includ pipeline-uri dedicate pentru aritmetică scalară, vectorială și tensorială. Această organizare permite software-ului să aloce sarcinile către cea mai potrivită unitate de execuție, maximizând capacitățile de accelerare. Debitul crește suplimentar prin suportul pentru multithreading simetric, o tehnică ce utilizează paralelismul la nivel de thread pentru a masca latența acceselor la memoria externă. Atunci când un thread trebuie să aștepte accesul la memorie, un alt thread care dispune deja de datele necesare poate continua execuția, până când, la rândul său, cedează controlul următorului.

Hexagon include, de asemenea, un procesor scalar complet capabil să ruleze Linux. Acest lucru facilitează gestionarea unor pipeline-uri AI multimodel extrem de complexe, care pot funcționa independent de procesoarele de aplicații Arm integrate în platformele Dragonwing.

De la procesor la produs: ecosistemul modular Tria

Integrarea procesoarelor Dragonwing în portofoliul Tria, sub forma unei familii de module SoM (System-on-Module), oferă dezvoltatorilor un acces simplificat la această tehnologie. Pentru procesoarele Qualcomm AI, precum QCS5430 și QCS6490, Tria a ales să dezvolte modulele în jurul standardului consacrat SMARC (Smart Mobility ARChitecture). Utilizarea SMARC pune la dispoziția dezvoltatorilor o familie de module compatibile AI, adecvate pentru produse în care dimensiunea și spațiul disponibil sunt critice, cum ar fi roboții mobili autonomi.

Pentru a valorifica performanța ridicată a modelului IQ-9075, un membru important al familiei IQ9, Tria a dezvoltat un computer pe o singură placă (SBC) în format de 3,5 inch, echipat cu memorie LPDDR5 de până la 36 GB/s și interfețe de cameră de înaltă performanță bazate pe standardul MIPI.

SMARC

Modulele SMARC permit proiectanților să aleagă dintr-o gamă de soluții bazate pe Dragonwing, construite în jurul procesoarelor QCS5430, QCS6490 și IQ6. În format OSM, un modul construit în jurul IQ6 este orientat către aplicații care necesită o platformă AI optimizată din punct de vedere dimensional. Plăcile bazate pe platforma Snapdragon X Elite utilizează formatele ComExpress și ComHPC, de dimensiuni mai mari, pentru a permite integrarea unei memorii extinse, a unui număr sporit de interfețe I/O și a unei performanțe de calcul superioare.

O caracteristică comună a plăcilor proiectate de Tria este designul optimizat din punct de vedere termic și electric. Modulele au fost validate în medii cu constrângeri termice, astfel încât inginerii care le integrează nu trebuie să estimeze comportamentul în condiții dificile, cum ar fi expunerea directă la soare în aplicații montate pe stâlp sau în exterior. Plăcile bazate pe Dragonwing beneficiază de suport pe un ciclu de viață extins, de 13 ani sau mai mult. Abordarea modulară adoptată de Tria permite, de asemenea, scalarea între generații de produse, facilitând upgrade-urile și oferind posibilitatea migrării către variante cu performanțe superioare.

Qualcomm AI Hub și accelerarea timpului de lansare pe piață

Cu un concept hardware pregătit pentru integrarea directă în produse, timpul de lansare pe piață este accelerat suplimentar prin intermediul platformei Qualcomm AI Hub. Acest mediu software oferă acces la sute de implementări de modele diferite, optimizate pentru platformele Snapdragon și Dragonwing. Utilizatorii trebuie doar să selecteze și să descarce modelele pentru a începe utilizarea AI, având posibilitatea de a testa rapid diverse abordări pentru a identifica soluția optimă pentru aplicația țintă.

Rezultatul colaborării dintre Qualcomm și Tria constă într-o combinație de accelerare AI de înaltă performanță, infrastructură software cu acces la o gamă extinsă de modele AI și suport hardware dedicat, care le permite dezvoltatorilor să evalueze, să creeze prototipuri și să valideze concepte într-un timp scurt. Platforma pune la dispoziția utilizatorilor din industrii precum automatizarea industrială, retail, securitate, logistică și utilități instrumentele necesare pentru a valorifica cele mai recente progrese în domeniul AI.


Autor
:
Christian Bauer
Product Marketing Manager,
Tria

 

Glosar de termeni

AI (Artificial Intelligence) – Tehnologii care permit sistemelor să execute sarcini asociate inteligenței umane.
LLM (Large Language Model) – Model lingvistic de mari dimensiuni antrenat pe volume mari de date textuale.
TOPS (Tera Operations Per Second) – Măsură a performanței de procesare AI.
SoM (System-on-Module) – Modul compact care integrează procesor, memorie și interfețe pe o singură placă.
SMARC – Standard pentru module embedded compacte.
Pruning – Tehnică de reducere a dimensiunii unui model AI prin eliminarea conexiunilor neesențiale.
Decodare speculativă – Tehnică de accelerare a generării de text în LLM prin utilizarea unui model auxiliar.

S-ar putea să vă placă și

Adaugă un comentariu