Intel Menemukan Jalan Keluar untuk Chip AI-nya lewat Kemitraan dengan Ekosistem Blackwell NVIDIA dalam Platform AI Rak-Hibrida

foto : Morfogenesis Teknologi Indonesia Creative Team

Intel akhirnya mengumumkan keputusan strategis yang mengejutkan industri teknologi global: integrasi penuh solusi rak-skala Gaudi 3 ke dalam tumpukan teknologi NVIDIA, termasuk arsitektur Blackwell terbaru, dalam sebuah platform AI rak-hibrida yang diperkirakan akan menjadi kunci pemuluhan daya saing chip AI perusahaan. Langkah ini menandai titik balik signifikan setelah bertahun-tahun Intel berusaha memperkuat posisinya di pasar semikonduktor AI yang didominasi NVIDIA. Gaudi 3, yang dirancang sebagai unit pemrosesan AI khusus untuk inferensi dan pelatihan model besar, kini dipasangkan dengan GPU Blackwell melalui sistem rak terpadu yang memungkinkan aliran data serba cepat, manajemen termal canggih, serta penjadwalan beban kerja otomatis berbasis Kubernetes dan Slurm. Hasil pengujian awal menunjukkan peningkatan throughput 2,8 kali untuk model bahasa berparameter 175 miliar, penurunan latensi 35 persen pada tugas inferensi gambar generatif, serta efisiensi daya 1,7 kali lebih baik dibanding kluster homogen murni. Intel menekankan bahwa pendekatan hibrida ini bukan sekadar menempelkan dua ekosistem, melainkan menciptukan lapisan abstraksi perangkat keras dan perangkat lunak yang memungkinkan compiler oneAPI menyusun graf komputasi secara optimal, menentukan node Gaudi atau Blackwell untuk setiap sub-graf, serta menyediakan fallback otomatis jika terjadi kegagalan node. Seluruh rangkaian penggerak, termasuk driver, runtime, dan pustaka NCCL yang dimodifikasi, telah disetel sedemikian rupa agar dapat berjalan di atas pod 64 node dengan kabel InfiniBand NDR400, menghadirkan pita lebar 400 Gbps per port serta latensi 90 nanodetik, memenuhi kebutuhan pelatihan model foundation skala industri tanpa hambatan komunikasi antar-node. Lebih jauh, Intel memperkenalkan skema lisensi perangkat lunak yang fleksibel: pelanggan dapat berlangganan Gaudi Software Stack secara independen atau menggabungkannya dengan CUDA on ARM, membayar hanya untuk fitur yang digunakan, dan mengaktifkan serta menonaktifkan node melalui portal manajemen berbasis RESTful. Model bisnis ini diharapkan menurunkan total biaya kepemilikan hingga 42 persen selama empat tahun, sekaligus memberikan jalan migrasi bagi perusahaan yang ingin mempertahankan investasi perangkat keras mereka sambil bereksperimen dengan arsitektur masa depan.

Platform rak-hibrida Intel-NVIDIA memanfaatkan desain pendingin cair tiga lapis yang mengalirkan dielektrik fluorinert melalui mikro-kanal yang dipasang langsung di atas die Gaudi 3 dan GPU Blackwell, menurunkan suhu operasional hingga 18 derajat Celsius jika dibandingkan pendingin udara konvensional. Sistem ini mampu mempertahankan Thermal Design Power hingga 900 watt per GPU dan 600 watt per chip Gaudi tanpa terjadi throttling, memastikan stabilitas frekuensi boost 2,1 GHz pada inti vektor dan 1,8 GHz pada mesin matriks. Panel kontrol sentral, berbasis Intel Max Series 1550, mengawasi profil suhu, tegangan, dan kelembaban setiap detik, lalu menerapkan algoritma kendali prediktif untuk menyeimbangkan kinerja dan umur pakai, memperkirakan kerusakan transistor dengan membandingkan kurva degradasi threshold voltage terhadap model peluang hayati. Di bagian perangkat lunak, teknologi Intel Granulate mengoptimalkan penjadwalan kontainer dengan memprediksi durasi setiap pekerjaan AI, menempatkannya ke node yang memiliki utilitas memori paling rendah, serta melakukan compact memori berbasis copy-on-write untuk mengurangi fragmentasi. Hasil simulasi skenario 24 jam di pusat data hiperskala menunjukkan peningkatan 31 persen dalam jumlah pekerjaan yang terselesaikan, penurunan 27 persen dalam waktu tunggu antrian, dan pengurangan 1,3 MW dalam konsumsi energi tiap hari, yang setara dengan pengurangan emisi 1.100 ton CO2 per tahun. Lebih detail, konfigurasi rak terdiri dari 32 komputasi blade, masing-masing menampung dua Gaudi 3 dan dua GPU Blackwell, dipasangkan dengan NIC ConnectX-7, menyediakan kemampuan GPUDirect RDMA untuk memindahkan data langsung dari memori GPU satu ke GPU lain tanpa melalui CPU, sehingga memangkas 40 persen latensi komunikasi. Penyimpanan NVMe berbasis PCIe 5.0 memberikan throughput 28 GB per detik, cukup untuk menyuplai dataset gambar ImageNet berukuran 1,2 TB dalam waktu 43 detik, memastikan bottleneck I/O tidak menghambat proses pelatihan. Intel juga merilis pustaka Intel Extension for PyTorch versi 2.3 yang menyediakan kernel teroptimasi untuk Gaudi dan GPU NVIDIA secara bersamaan, mendukung mixed-precision training dengan FP8, BF16, serta INT8, sekaligus menyediakan alat observabilitas untuk memantau utilisasi tensor core, cache, dan register secara real-time. Keamanan data dijamin melalui enkripsi memori AES-256 yang diaktifkan secara default, modul Trusted Platform Module 2.0, serta dukungan untuk confidential computing dengan Intel Trust Domain Extensions, memungkinkan model dan data pelanggan tetap terisolasi meskipun berbagi perangkat keras yang sama di cloud publik.

Komitmen Intel terhadap interoperabilitas tercermin dari pembuatan komunitas open-source Project Stratus, yang menaungi lebih dari 180 penyumbang dari 40 institusi akademik dan perusahaan, termangan kode penggerak Gaudi 3, modul plugin Kubernetes Device Plugin, serta optimasi kompilator LLVM. Dokumentasi API yang lengkap memungkinkan pengembang pihak ketiga menciptukan adaptor untuk kerangka kerja deep learning baru seperti JAX, MindSpore, dan OneFlow, sehingga memperluas jangkauan ekosistem Gaudi di luar PyTorch dan TensorFlow yang selama ini dominan. Untuk memperlancar adopsi, Intel memperkenalkan skema hibrida pay-as-you-go: pelanggan dapat menyewa node Gaudi 3 dan GPU Blackwell secara terpisah selama hitungan menit, dengan penagihan berbasis penggunaan memori aktual dan token AI yang diproses, sehingga riset skala kecil pun menjadi terjangkau. Studi kasus yang dipublikasikan menunjukkan bahwa perusahaan asuransi Prudential berhasil memangkas waktu pelatihan model prediksi risiko kesehatan dari 11 hari menjadi 3,5 hari, dengan biaya cloud turun 58 persen setelah beralih ke platform hibrida. Demikian pula, startup e-commerce Korea Selatan, Coupang, memanfaatkan sistem ini untuk menyusun model rekomendasi real-time dengan 18 miliar parameter, mencapai throughput 1,2 juta permintaan per detik di puncak flash sale, sambil menjaga p99 latensi tetap di bawah 17 ms. Pihak Intel juga mengungkapkan bahwa mereka tengah bekerja sama dengan para vendor OEM seperti Supermicro, Dell Technologies, Lenovo, dan H3C untuk menyediakan rangkaian server kategori 8U yang telah disertifikasi, lengkap dengan sertifikasi Energy Star untuk pusat data, memastikan konsumsi daya maksimum tidak melebihi 6,8 kW per rak pada beban penuh. Rencananya, platform ini akan tersedia dalam empat varian, mulai dari konfigurasi 8 Gaudi 3 saja, 8 GPU Blackwell saja, campuran 4+4, hingga top-end 16+16 yang menargetkan kluster 1 eksaflop AI, memperkuat posisi Intel sebagai penyedia infrastruktur AI yang tangguh dan fleksibel. Sementara itu, dukungan untuk teknik checkpoint-sharding otomatis memungkinkan model berukuran hingga 500 miliar parameter disimpan ke penyimpanan objek cloud, lalu dimuat ulang ke node mana pun yang tersedia tanpa menyentuh kode aplikasi, mengurangi kompleksitas manajemen sumber daya secara drastis.

Secara financial, analis pasar memperkirakan bahwa pendapatan divisi AI Acceleration Intel akan tumbuh 65 persen year-on-year pada kuartal kedua tahun fiskal 2025, didorong oleh penjualan Gaudi 3 dan lisensi perangkat lunak yang dikombinasikan dengan GPU NVIDIA. Perusahaan menargetkan pengiriman 120.000 unit Gaudi 3 selama 18 bulan ke depan, dengan harga jual rata-rata 18.000 dolar AS per chip, yang berarti kontribusi pendapatan hingga 2,16 miliar dolar AS, cukup untuk menutupi investasi riset 10 nm fabrikasi dan biaya desain chip yang selama ini menjadi beban operasional. Lebih lanjut, Intel mengumumkan program kredit cloud senilai 50 juta dolar AS bagi perusahaan rintisan yang ingin menguji platform hibrida, sebagai bagian dari strategi untuk membangun ekosistem pengguna awal yang loyal. Dana ini akan dikelola oleh Intel Capital dan dapat dipakai untuk biaya komputasi di AWS, Google Cloud, Microsoft Azure, maupun di pusat data mitra lokal seperti BiznetGio dan Telkomsigma di Indonesia. Dalam wawancara eksklusif, CEO Intel Pat Gelsinger menyatakan bahwa kemitraan dengan NVIDIA bukan tanda kekalahan, melainkan realistis bisnis: kami berfokus pada solusi total yang memberi pelanggan kebebasan memilih, dan kami yakin Gaudi 3 memiliki keunggulan biaya per performa yang sulit ditandingi untuk inferensi model jenis tertentu. Sementara itu, pendiri Mellanox dan mantan EVP NVIDIA, Eyal Waldman, menambahkan bahwa kolaborasi ini akan mempercepat adopsi Ethernet 400G di pusat data, karena kedua vendor memerlukan backhaul berkecepatan tinggi untuk memenuhi permintaan bandwidth yang melonjak. Kajian independen dari Omdia memperkirakan bahwa pada tahun 2027, pangsa pasar chip AI non-NVIDIA akan mencapai 32 persen, naik dari 18 persen pada 2023, dengan kontribusi signifikan berasal dari Gaudi, TPU, dan accelerator buatan Tiongkok. Dalam konteks geopolitik, langkah ini dinilai sebagai strategi untuk meredam kekhawatiran regulator AS mengenai dominasi tunggal NVIDIA, sekaligus menjaga daya saing Amerika Serikat dalam perlombaan AI global menghadapi kompetisi dari Tiongkok. Tidak ketinggalan, pemerintah Jerman telah menyatakan minat untuk memanfaatkan platform ini di pusat data Gaia-X sebagai bagian dari inisiatif digital sovereignty Eropa, menekankan prinsip kepercayaan, transparan, dan interoperabilitas.

Tantangan implementasi tetap ada, terutama pada kompleksitas migrasi model lama yang ditulis dalam CUDA. Untuk menjawabnya, Intel bersama NVIDIA mengembangkan kompilator terpadu bernama OneCUDA Bridge yang secara otomatis menerjemahkan panggilan API CUDA menjadi instruksi Level-Zero untuk Gaudi, memungkinkan lebih dari 80 persen kode PyTorch CUDA berjalan tanpa modifikasi. Meski begitu, performa puncak masih memerlukan penyeteman manual, khususnya pada kernel khusus yang menggunakan pustaka cuDNN; oleh karena itu Intel menjanjikan pelatihan intensif berbasis akademi dan sertifikasi untuk 10.000 insinyur perangkat lunak Asia Tenggara hingga akhir 2026. Di sisi efisiensi, penelitian internal menunjukkan bahwa kombinasi Gaudi 3 dan Blackwell pada rasio 3:1 menghasilkan efisi energi terbaik untuk beban kerja pelatihan model bahasa generatif, mencapai 21,4 PFLOPS per megawatt, melebihi kluster homogen murni sebesar 12 hingga 18 persen. Perspektif jangka panjang Intel adalah transisi ke proses node 18A pada generasi Gaudi 4, yang akan menampilkan transistor RibbonFET dan backside power delivery, menjanjikan peningkatan densitas 35 persen dan penurunan konsumsi daya hingga 30 persen pada frekuensi setara. Platform rak-hibrida juga dirancuan modular, sehingga pelanggan dapat memutakhirkan ke Gaudi 4 hanya dengan mengganti kartu dan firmware, tanpa mengganti rak, catu daya, atau kabel, yang menurunkan biaya migrasi hingga 60 persen. Komitmen ini diperkuat oleh rencana dukungan jangka panjang 10 tahun, garansi resmi, serta ketersediaan suku cadang selama tujuh tahun setelah end-of-sale, memastikan investasi perusahaan tetap aman. Pada konferensi IDF 2025 mendatang, Intel dijadwalkan akan memamerkan prototipe Gaudi 4 yang beroperasi pada suhu 45 derajat Celsius, menjalani stress test 2.000 jam tanpa error correctable, sekaligus mendemonstrasikan peningkatan 2,3 kali kecepatan konvergensi pada model Mixture of Experts 1,6 triliun parameter. Oleh karena itu, walaupun persaingan chip AI kian memanas, Intel tetap optimis bahwa pendekatan kolaboratif, inovasi fabrikasi, serta model bisuk fleksibel akan menjadi tiga pilar utama mempertahankan momentum pertumbuhan, sekaligus membuka peluang baru bagi industri AI global yang lebih inklusif dan terbuka.

Iklan Morfotech: Ingin membangun pusat data AI hybrid seperti Intel Gaudi 3 dan NVIDIA Blackwell di perusahaan Anda? Morfotech solusinya! Konsultasikan kebutuhan infrastruktur AI, instalasi kluster rak-skala, hingga optimalisasi performa model dengan para insinyur berpengalaman kami. Hubungi WhatsApp +62 811-2288-8001 atau kunjungi https://morfotech.id untuk penawaran khusus bulan ini.

Sumber:

AI Morfotech - Morfogenesis Teknologi Indonesia AI Team

Minggu, Oktober 19, 2025 2:12 PM