Wat voor soort chip heeft ChatGPT nodig? - Industrieel nieuws

Onlangs is ChatGPT de nieuwe hotspot voor AI geworden, met Microsoft en Google in Silicon Valley die zwaar investeren in dergelijke technologie (Microsoft heeft een belang van $ 10 miljard in OpenAI, het bedrijf achter ChatGPT, en Google heeft onlangs zijn eigen BARD-model uitgebracht), terwijl internettechnologiebedrijven in China, vertegenwoordigd door Baidu en anderen, ook hebben aangegeven dat ze dergelijke technologie aan het ontwikkelen zijn en in de nabije toekomst live zullen gaan. In China hebben ook Baidu en andere internettechnologiebedrijven aangegeven dergelijke technologieën te ontwikkelen en in de nabije toekomst live te gaan.

De generatieve modellen die door ChatGPT worden vertegenwoordigd, hebben een gemeenschappelijk kenmerk, namelijk dat ze enorme hoeveelheden gegevens gebruiken voor pre-training en vaak worden gecombineerd met een krachtiger taalmodel. De belangrijkste functie van het taalmodel is om te leren van het enorme bestaande corpus, en na het leren kan het de taalkundige instructies van de gebruiker begrijpen, of bovendien relevante tekstuitvoer genereren volgens de instructies van de gebruiker.

Generatieve modellen kunnen grofweg in twee categorieën worden ingedeeld: de ene is op taal gebaseerde generatieve modellen en de andere is op afbeeldingen gebaseerde generatieve modellen. De op taal gebaseerde generatieve modellen worden vertegenwoordigd door ChatGPT, waarvan het taalmodel niet alleen de betekenis van gebruikerscommando's kan leren begrijpen (bijvoorbeeld "schrijf een gedicht, in de stijl van Li Bai"), maar ook relevante tekst kan genereren op basis van de gebruiker commando's na training met enorme gegevens (in het bovenstaande voorbeeld een gedicht schrijven in de stijl van Li Bai). gedicht). Dit betekent dat ChatGPT een groot taalmodel (LLM) moet hebben dat de taal van de gebruiker begrijpt en taaluitvoer van hoge kwaliteit kan produceren - het model moet bijvoorbeeld begrijpen hoe gedichten moeten worden gegenereerd, hoe gedichten moeten worden gegenereerd in de stijl van Li Bai , enzovoort. Dit betekent ook dat grote taalmodellen in op taal gebaseerde generatieve AI een zeer groot aantal parameters nodig hebben om dit soort complexe leerprocessen uit te voeren en zoveel informatie te onthouden. ChatGPT heeft bijvoorbeeld 175 miljard parameters (700 GB opslagruimte als standaard drijvende-kommagetallen worden gebruikt), wat aangeeft hoe "groot" zijn taalmodel is.

Een andere klasse van generatieve modellen is het model voor het genereren van afbeeldingen dat wordt vertegenwoordigd door Diffusion, typisch Dalle van OpenAI, ImaGen van Google en momenteel de meest populaire Stable Diffusion van Runway AI. Deze beeldachtige generatiemodellen gebruiken ook een taalmodel om de taalkundige commando's van de gebruiker te begrijpen en genereren vervolgens afbeeldingen van hoge kwaliteit op basis van die commando's. In tegenstelling tot op taal gebaseerde generatieve modellen, gebruikt het hier gebruikte taalmodel voornamelijk taal om gebruikersinvoer te begrijpen zonder taaluitvoer te genereren, dus het aantal parameters kan vrij klein zijn (in de orde van een paar honderd miljoen), terwijl het aantal parameters voor op afbeeldingen gebaseerde diffusiemodellen zijn relatief klein, in totaal in de orde van enkele miljarden, maar de rekeninspanning is niet gering omdat de resolutie van de gegenereerde afbeeldingen of video's erg hoog kan zijn.

Generatieve modellen kunnen output van ongekend hoge kwaliteit produceren door massale datatraining, en er zijn al een aantal duidelijke toepassingsmarkten, waaronder zoeken, dialoogbots, het genereren en bewerken van afbeeldingen, enz. Er worden in de toekomst meer toepassingen verwacht, wat ook de vraag naar gerelateerde fiches.

De behoefte aan chips voor het genereren van klassenmodellen

Zoals eerder vermeld, vertegenwoordigt ChatGPT een generatief model dat moet leren van grote hoeveelheden trainingsgegevens om generatieve output van hoge kwaliteit te bereiken. Om efficiënte training en inferentie te ondersteunen, hebben generatieve modellen hun eigen vereisten voor gerelateerde chips.

De eerste is de behoefte aan gedistribueerde berekeningen; het aantal parameters voor taalgeneratieve modellen zoals ChatGPT loopt in de honderden miljarden, en het is bijna onmogelijk om training en inferentie op één computer te gebruiken, maar er moet veel gedistribueerde berekening worden gebruikt. Bij gedistribueerd computergebruik is er veel vraag naar de data-interconnectiebandbreedte tussen machines en de computerchip voor dergelijk gedistribueerd computergebruik (zoals RDMA), omdat het knelpunt van de taak vaak niet in de computer zit, maar in de bovenstaande data-interconnectie, vooral in dit soort grootschalig gedistribueerd computergebruik is de chip voor de efficiënte ondersteuning van gedistribueerd computergebruik kritischer geworden.

Het volgende is de geheugencapaciteit en bandbreedte. Hoewel gedistribueerde training en inferentie onvermijdelijk zijn voor op taal gebaseerde generatieve modellen, zullen het lokale geheugen en de bandbreedte van elke chip grotendeels de uitvoeringsefficiëntie van een enkele chip bepalen (omdat het geheugen van elke chip tot het uiterste wordt gebruikt). Voor op afbeeldingen gebaseerde generatieve modellen is het mogelijk om de modellen (ongeveer 20 GB) allemaal in het geheugen van de chip te plaatsen, maar naarmate op afbeeldingen gebaseerde generatieve modellen in de toekomst verder evolueren, is het waarschijnlijk dat de geheugenvereisten ook verder zullen toenemen . Vanuit dit perspectief zal geheugentechnologie met ultrahoge bandbreedte, vertegenwoordigd door HBM, de onvermijdelijke keuze worden voor verwante versnellerchips, terwijl de generatieve klassemodellen ook HBM-geheugen zullen versnellen om de capaciteit en bandbreedte verder te vergroten. Naast HBM zullen nieuwe opslagtechnologieën zoals CXL in combinatie met software-optimalisaties ook het potentieel hebben om de capaciteit en prestaties van lokale opslag in dergelijke toepassingen te vergroten en zullen naar schatting meer industriële acceptatie krijgen door de opkomst van het generatieve klassenmodel.

Ten slotte hebben computermodellen, zowel op taal gebaseerde als op afbeeldingen gebaseerde generatieve klassemodellen een grote rekenkracht, en op afbeeldingen gebaseerde generatieve modellen hebben mogelijk een veel grotere vraag naar rekenkracht, aangezien ze steeds hogere resoluties genereren en naar videotoepassingen evolueren. reguliere modellen voor het genereren van afbeeldingen hebben een rekenvolume van ongeveer 20 TFlops, en wat hoge resolutie en afbeeldingen betreft, is 100-1000 TFLOPS rekenkundige vraag waarschijnlijk de norm.

Samenvattend zijn wij van mening dat de vereisten van generatieve modellen voor chips gedistribueerde computers, opslag en berekeningen omvatten, waarvan kan worden gezegd dat ze alle aspecten van het chipontwerp omvatten, en, nog belangrijker, hoe al deze vereisten op een redelijke manier kunnen worden gecombineerd. om ervoor te zorgen dat een enkel aspect geen knelpunt wordt, wat ook een systeemtechnisch probleem voor het chipontwerp zal worden.

GPU en de nieuwe AI-chip, die een betere kans maakt

Generatieve modellen hebben een nieuwe vraag naar chips. Wie heeft een betere kans om deze nieuwe vraag en markt voor GPU's (vertegenwoordigd door Nvidia en AMD) en nieuwe AI-chips (vertegenwoordigd door Habana, GraphCore) te veroveren?

Ten eerste, vanuit het perspectief van op taal gebaseerde generatieve modellen, zijn GPU-leveranciers die momenteel een volledige lay-out hebben in dit soort ecologie voordeliger vanwege het enorme aantal deelnemers en de behoefte aan goede gedistribueerde computerondersteuning. Dit is een systeemtechnisch probleem dat een complete software- en hardware-oplossing vereist, en in dit opzicht heeft Nvidia zijn GPU's gecombineerd om de Triton-oplossing te lanceren, die gedistribueerde training en gedistribueerde inferentie ondersteunt, waardoor een model in meerdere delen kan worden verdeeld en verwerkt op verschillende GPU's, waardoor het probleem wordt opgelost van te veel parameters die niet kunnen worden ondergebracht in het hoofdgeheugen van één GPU. Dit lost het probleem op van te veel parameters voor het hoofdgeheugen van één GPU. Of je nu direct Triton gebruikt of in de toekomst doorontwikkelt op basis van Triton, het is handiger om een complete ecologische GPU te hebben. Vanuit computationeel oogpunt, aangezien de belangrijkste berekening van het op taal gebaseerde generatiemodel matrixberekening is, wat de kracht van de GPU is, heeft de nieuwe AI-chip vanuit dit oogpunt geen duidelijk voordeel ten opzichte van de GPU.

Vanuit het oogpunt van op afbeeldingen gebaseerde generatiemodellen is het aantal parameters van dergelijke modellen ook groot, maar één tot twee ordes van grootte kleiner dan de op taal gebaseerde generatiemodellen, naast de berekening ervan zal nog steeds worden gebruikt in een groot aantal convolutionele berekeningen, dus inferentietoepassingen, als je een zeer goede optimalisatie kunt doen, kunnen AI-chips enkele kansen hebben. Hier omvat de optimalisatie een grote hoeveelheid opslag op de chip om parameters en tussentijdse berekeningsresultaten op te vangen, voor convolutie en efficiënte ondersteuning van matrixbewerkingen.

Over het algemeen is de huidige generatie AI-chips ontworpen om zich te richten op kleinere modellen (aantal parameters op miljardenniveau, berekening op 1TOPS-niveau), terwijl de vraag naar generatieve modellen nog steeds relatief groter is dan het oorspronkelijke ontwerpdoel. GPU's zijn ontworpen om flexibeler te zijn ten koste van efficiëntie, terwijl AI-chips zijn ontworpen om het tegenovergestelde te doen en de efficiëntie van de doeltoepassing na te streven. Daarom zijn we van mening dat GPU's de komende twee jaar nog steeds dergelijke generatieve modelversnelling zullen domineren, maar naarmate generatieve modelontwerpen stabieler worden en AI-chipontwerpen tijd hebben om generatieve modeliteraties in te halen, hebben AI-chips de mogelijkheid om GPU's te overtreffen. in de generatieve modelruimte vanuit een efficiëntieperspectief.

ND2N9T12-full-automatic5