Inteligența artificială determină o creștere exponențială în ceea ce privește generarea de date la nivel global, mai ales odată cu recenta explozie a interogărilor adresate unor sisteme cu inteligență artificială generativă. Cererea de energie a cipurilor, care susțin creșterea enormă a acestor date, s-a mărit exponențial, fiecare cip apropiindu-se de mai mult de1000W de energie termică de proiectare. Capacitatea de alimentare a centrelor de date își atinge limitele, deoarece serverele de inteligență artificială solicită o energie de trei ori mai mare decât cea a serverelor tradiționale.
Centrele de date consumă mai mult de două procente din energia globală și vor consuma și mai mult. Soluțiile de alimentare și inovațiile în ceea ce privește arhitectura sunt esențiale în vederea obținerii un impact măsurabil asupra economiilor de energie la nivel global și a îmbunătățirii costul total al proprietății (TCO) pentru centrele de date.
Evoluția cerințelor de putere ale procesoarelor
Serverele tradiționale au un procesor (cu un curent termic de proiectare, sau TDC <200A), un coprocesor (<30A) și o memorie DIMM (<40A). Procesorul se află în centrul plăcii, o latură a sa fiind dedicată alimentării, iar celelalte trei laturi pentru semnale și comunicație (către memorie și coprocesor).
Pe măsură ce computerele au evoluat și au apărut aplicațiile de calcul AI de mare putere, furnizorii de CPU/GPU/FPGA și start-up-urile AI au proiectat cipuri ASIC și AI mai rapide și mai puternice. Nivelurile de curent la nivelul nucleului (core-rail) s-au dublat, ajungând la 400A TDC în 2016 și, patru ani mai târziu, la 800A TDC.
Atunci când linia de curent la nivelul nucleului a depășit 200A, alimentarea pe o singură latură (single-sided) a devenit nepractică din cauza pierderilor excesive din rețeaua de distribuție a energiei (PDN – Power Distribution Network), astfel că producătorii au standardizat alimentarea de tip double-sided. Aceasta a permis scăderea la jumătate a rezistenței PDN, dar pierderile PDN au crescut în continuare din cauza I2R. Furnizorii au integrat coprocesorul și memoria cu procesorul de bază pentru a crește viteza și performanța. Coprocesorul, în loc să fie o entitate separată, era acum amplasat pe siliciul de bază, iar memoria cu lățime de bandă mare (HBM) a înlocuit memoriile DIMM. Toată puterea care activează procesorul AI a fost consolidată fizic în zona principală a plăcii de bază. Pe măsură ce puterea creștea, căldura era concentrată într-o zonă mică.
Procesoarele au devenit, la rândul lor, mai mari. Factorul de formă standard în industrie pentru aplicațiile AI este OCP Accelerator Module (OAM), plăcile de bază tipice pentru servere AI putând găzdui maximum 8 module OAM. Dimensiunea unui OAM (170 × 102 mm) a devenit insuficientă pentru cipurile AI mai mari și pentru cerințele de putere totală. Noile cipuri AI de curent ridicat aveau dimensiuni de până la 110 × 80 mm, lăsând un spațiu limitat pentru componentele de alimentare din cauza a doi conectori mezanin mari din partea inferioară. Proiectarea sistemului de răcire a devenit o provocare din cauza pierderilor mari ale plăcii de circuit imprimat, a densității termice mai mari și a restricțiilor de înălțime a componentelor.
Provocarea
Având în vedere că noile sisteme AI necesită peste 1000A concentrați într-o zonă mică în centrul OAM-ului, alimentarea pe două laturi (double-sided) s-a transformat într-o intrare de alimentare pe mai multe laturi (multisided – figura 1), în care rezistența scade cu 1/N, N fiind numărul de laturi alimentate cu putere. Cu toate acestea, se atinge un plafon, deoarece există doar patru laturi ale unui procesor și un perimetru limitat de unde se poate furniza curent cu ușurință.
Aranjarea fazelor pe mai multe linii crește rezistența PDN, deoarece curenții mari proveniți din spate ar fi direcționați în jurul etajelor frontale. În plus, integritatea semnalului devine o problemă în cazul alimentării pe patru laturi datorită numărului limitat de puncte în care se pot ruta semnalele sensibile, evitând în același timp planurile de alimentare, care tind să fie zgomotoase.
Un proiect care consumă peste1000A necesită o soluție care să rezolve trei cerințe:
- creșterea densității de putere care să permită furnizarea unui curent mai mare dintr-un spațiu mic
- creșterea integrității puterii oferind posibilitatea ca puterea să coexiste în apropierea semnalelor de mare viteză
- un profil redus care să faciliteze alimentarea cu putere pornind de sub procesor
Module
Modulele de alimentare cu două faze încorporează inductorul, capacitoarele discrete și etajele de putere ale celor două faze ale unui regulator de tensiune coborâtor (buck) multifază pe un substrat, care să creeze un singur dispozitiv, implementat într-o structură ca un sistem multifază. Prin această integrare a stabilizatorului (regulatorului) de tensiune (VR – Voltage Regulator), un modul de alimentare scade amprenta unei soluții multifazate cu 40% față de o soluție discretă echivalentă.
Ce ar trebui amplasat pe suprafața cea mai apropiată de radiator atunci când se integrează inductorul și etajul de putere?
Deoarece etajul de putere cauzează cea mai mare parte a pierderilor de putere, amplasarea acestuia în partea superioară, cel mai aproape de radiator, minimizează calea de conducție a căldurii și îmbunătățește performanța termică. Totuși, o cale de conducție termică mai scurtă este compensată de o cale de conducție electrică mai lungă, în special pe partea de intrare, ceea ce duce la pierderi suplimentare și la o eficiență mai scăzută.
Un design mai bun păstrează etajul de alimentare pe partea plăcii de bază a modulului, minimizând atât pierderile de conducție, cât și cele parazite. În această configurație, inductorul este amplasat între etajul de putere și radiatorul de căldură, dar este totuși capabil să răcească eficient etajul de putere prin cuplarea termică a acestuia cu radiatorul.
Modulele bifazate de la Infineon (figura 2) utilizează un design proprietar de tip inductor-on-top (inductorul aflat deasupra) pentru o performanță termică îmbunătățită cu o eficiență mai bună (figura 3). Acest design maximizează conducția termică înspre suprafața superioară din zonele cheie generatoare de căldură ale etajului de putere de sub acesta, prin intermediul inductorului.
Modulul de putere adaugă, în plus, o componentă electrică vitală la regulatorul de tensiune (VR): substratul. Acesta izolează nodul de comutare de placa de bază, făcând ca toți curenții de intrare și de ieșire din modul să fie la o tensiune continuă constantă. Astfel, se îmbunătățește integritatea semnalului prin eliminarea tensiunilor în comutație de la placa de bază și protejarea semnalelor sensibile împotriva zgomotului.
La frecvențe de comutare mai mari, elementele parazite ale nodului de comutare limitează comutarea eficientă a regulatorului de tensiune (VR.) Integrarea nodului de comutare în modul (figura 4) minimizează impedanțele parazite ale acestuia pentru o funcționare mai eficientă la frecvențe de comutare mai mari (figura 5). Regulatoarele de tensiune cu frecvență de comutare ridicată utilizează inductanțe mai mici și o capacitanță de ieșire mai mică, crescând densitatea de putere.
Odată ce nodul de comutare este scos de pe placa de bază, modulul poate fi acum amplasat sub procesor. Acest lucru minimizează pierderile PDN, deoarece curentul ridicat curge vertical prin grosimea plăcii de bază, în loc să traverseze lateral capsula până la miez. Astfel, traseul curentului este redus de aproximativ 30 de ori, micșorând semnificativ pierderile de putere.
Analiză PDN
Modulele de alimentare cu două faze sunt esențiale pentru sistemele GPU de mare putere datorită gestionării eficiente a densității de putere și a integrității semnalului fără a reduce eficiența sistemului. Amplasând modulele cât mai aproape de procesor și utilizând toată suprafața de montare disponibilă, obținerea a peste 2000 A devine fezabilă prin reducerea pierderilor PDN.
Să presupunem un OAM de 2000A cu o rezistență de 90µΩ pe laturile nord și sud ale nucleului procesorului. Furnizarea integrală a curentului provenit din ambele laturi produce pierderi PDN de 180W, sau peste 10% din pierderile totale ale procesorului (presupunând o tensiune de 0,8V a miezului). Dacă 60 de procente din acest curent este furnizat de sub procesor la 18 µΩ, pierderile PDN scad cu 70 de procente, ajungând la 50W, adică aproximativ 3,1 procente din pierderile totale ale procesorului.
Având în vedere că implementările tipice la scară largă constau din circa 100.000 de procesoare, economisirea a 130W per procesor, pentru un centru de date, echivalează cu megawați. Acest lucru înseamnă milioane de dolari economisiți pe durata de viață a sistemului.
Îmbunătățirea eficienței energetice la nivel de nucleu generează economii semnificative de energie. Folosirea tehnologiei bazate pe decarbonizare îmbunătățește fiecare etapă de conversie a puterii, începând cu intrarea de curent alternativ. Furnizorii de servicii pot profita de controlerele XDP™ de la Infineon, de modulele de alimentare cu două faze, pe care le pot combina cu capabilități de inteligență artificială, pentru a oferi o eficiență superioară a conversiei energiei, o flexibilitate sporită și eficiență energetică în proiectarea sistemului, dar și cel mai bun TCO pentru centrele de date.
Concluzie
Centrul de date al viitorului – fabrica AI – se bazează pe mii de acceleratoare de inteligență artificială, fiecare dintre acestea consumând peste 1000A. Crearea unei fabrici de inteligență artificială ecologice începe cu proiectarea unui regulator de tensiune (VR) eficient pentru a furniza curenți foarte mari acestor acceleratoare de inteligență artificială, cu o densitate de putere și o eficiență ridicate. Creșterea densității de putere fără a compromite eficiența este esențială pentru a prezenta o cale către un sistem GPU eficient și ecologic de 2000A și chiar mai mult. Modulele permit această cale și deschid noi perspective pentru a putea integra și mai mult VR-ul multifazic, apropiindu-l în același timp de procesor. Tehnologia de inductor patentată de Infineon transportă atât curentul de ieșire, cât și căldura din modul, permițând obținerea celei mai bune performanțe de sistem din clasa sa, concomitent cu o construcție mai simplă. Combinarea tehnologiei dispozitivelor Trench de la Infineon cu această tehnologie magnetică brevetată deschide calea pentru adevărate arhitecturi Vertical Power Delivery (VPD), care permit procesoarelor AI să obțină cea mai bună performanță posibilă și cel mai mic TCO.
Autori Davood Yazdani, Senior Director Product Marketing și Paul Yeaman, Director Power Module Design Engineering,
Despre autori
Davood Yazdani, PhD, SM’IEEE este Senior Director Product Marketing la Infineon. El gestionează portofoliul de produse de putere pentru aplicații de calcul și coordonează strategia de afaceri în domeniul AI, al serverelor și al aplicațiilor de telecomunicații. Este autorul a peste 50 de lucrări tehnice în publicațiile IEEE în domeniul electronicii de putere.
Paul Yeaman este Director Power Module Design Engineering la Infineon și are 25 de ani de experiență în elaborarea și proiectarea de soluții de alimentare pentru microprocesoare. Concentrându-se, în prezent, asupra modulelor de alimentare de înaltă densitate pentru sistemele de inteligență artificială, Paul colaborează îndeaproape cu liderii din industrie pentru a crea soluții inovatoare de alimentare a acestor sisteme complexe.