A TechRadar egy friss jelentésében ismertté vált, hogy az Open Compute Project (OCP) új területre lép: elindította az Ethernet for Scale-Up Networking (ESUN) nevű kezdeményezést, amelynek célja, hogy az Ethernet olyan gyors és megbízható legyen, hogy a jelenleg az AI- és HPC-clustereknél domináló InfiniBand protokollt felválthassa.
Mi áll a projekt mögött?
Az ESUN szövetség tagjai a legnagyobb adat- és AI-infrastruktúra-cégek: Meta, Nvidia, AMD, Cisco, OpenAI, Arista, ARM, Broadcom, HPE Networking, Marvell, Microsoft, Oracle — és még sokan mások.
A cél: az Ethernet alapú megoldásokkal nagyobb skálájú, könnyebben menedzselhető AI-cluster-hálózatokatlétrehozni. A szövetség vállalta, hogy együttműködik az Ultra Ethernet Consortium-nal és az IEEE 802.3 szabványtestülettel is, hogy az új technológia nyílt szabványokon alapuljon.
Miért most? Miért Ethernet?
Az InfiniBand eddig az AI-cluster interconnectek sztenderdje, az AI-workloadok közel 80 %-ánál használják az adattovábbításban.
Az Ethernet előnyei között szerepel:
- szélesebb iparági elterjedtség és ismeretség,
- költséghatékonyság (olcsóbb csatlakozók, hálózati eszközök),
- könnyebb integráció más rendszerekkel.
Az ESUN támogatói azt állítják: az Ethernet technológia már elég fejlett lehet ahhoz, hogy jelentős versenytársa legyen az InfiniBand-nak, különösen akkor, ha örökérvényűbb szabványként, modulárisabb felépítésbenszolgálja ki az AI- és HPC-szükségleteket.
A kihívás: teljesítmény és megbízhatóság
Nem véletlen, hogy az InfiniBand még mindig vezet: a legkritikusabb AI-munkafolyamatoknál a késleltetés (latency), az adatcsomag-vesztés és a skálázhatóság számít. Az OCP maga is elismerte: az ESUN sikeréhez elengedhetetlen lesz annak bizonyítása, hogy az Ethernet képes úgy viselkedni az AI-klasztereknél, mint az eddigi csúcstechnológiák.
Mi várható?
- Az ESUN résztvevői közösen dolgoznak majd olyan specifikációkon, amelyek meghatározzák a switch-ek viselkedését, hiba-kezelését, adatcsomag-vesztését, memória- és terheléselosztási stratégiáit GPU-alapú rendszerekben.
- Több gyártó már bejelentett Ethernet-alapú termékeket AI-klaszterekhez: például a Broadcom Tomahawk Ultra sorozat, amely akár 77 milliárd csomagot másodpercenként képes kezelni.
- A jövőben elképzelhető olyan moduláris AI-adatközpont, amely nem kizárólag egyetlen interconnect-rendszerre épít, hanem nyílt szabványokra, így sokkal rugalmasabb és olcsóbb lehet a bővítése.
Miért fontos ez nekünk?
Az AI-ipar kurvára gyorsan változik, és az adatközpontokban nem kizárólag a processzorok vagy az AI-chipek számítanak, hanem a hálózat is, amin keresztül minden adat áramlik. Ha az Ethernet valóban fel tudja venni a versenyt az InfiniBand-del, akkor:
- az AI-rendszerek olcsóbbá, skálázhatóbbá válhatnak,
- az adatközpont-építés és-üzemeltetés egyszerűsödhet,
- a hardver- és szoftver-spektrum sokkal nyitottabbá válhat a kisebb szereplők számára is.
Ugyanakkor: az ESUN még csak most indul – és az adatközpont-világ egyik nagy fogadása lehet, de nem garantált. Az Ethernet-tábor még sokat kell bizonyítsa, hogy az AI-világban ugyanolyan megbízható legyen, mint az InfiniBand.
Összegzés
Az Ethernet for Scale-Up Networking (ESUN) kezdeményezés akár új korszakot is nyithat az AI-hálózatok terén: ha a nyílt szabványok, nagyvállalati támogatás és az Ethernet technológiai fejlődése összeérik, akkor a következő generációs számítási infrastruktúrák nemcsak gyorsabbak és olcsóbbak lesznek, hanem elérhetőbbek is lehetnek.
De az út még hosszú: az ESUN-nak meg kell mutatnia, hogy nem csak elméletben, hanem a világ legnagyobb és legkritikusabb AI-rendszereiben is működik.