Snowflake collabora con Meta per l’hosting e l’ottimizzazione della nuova famiglia di modelli su Snowflake Cortex AI

Snowflake (NYSE: SNOW), l’AI Data Cloud company, ha annunciato che metterà a disposizione in Snowflake Cortex AI la libreria di Large Language Models (LLM) multilingue open source, Llama 3.1, per permettere alle aziende di utilizzare e sviluppare facilmente efficaci applicazioni in ambiente Enterprise. Questa offerta include il più grande e performante LLM open source di Meta, Llama 3.1 405B. In questo progetto, Snowflake si è occupata di sviluppare e rendere open source il sistema di inferenza in modo da poterlo utilizzare in tempo reale ed inoltre democratizzare ulteriormente le potenti applicazioni di linguaggio generativo. Il team di ricerca AI di Snowflake, leader nel settore , ha ottimizzato Llama 3.1 405B sia per l’inferenza che per il fine-tuning, supportando un’enorme “contex window” di 128K fin dal primo giorno e consentendo l’inferenza in tempo reale con una latenza end-to-end fino a 3 volte inferiore e un throughput 1,4 volte superiore rispetto alle soluzioni open source esistenti. Inoltre, consente di eseguire il fine-tuning del modello utilizzando un singolo nodo GPU direttamente all’interno di Cortex AI, eliminando costi e sprechi a sviluppatori e clienti.

Grazie alla collaborazione con Meta, Snowflake offre alle aziende clienti un modo semplice, efficiente e affidabile per accedere, ottimizzare e distribuire senza problemi i modelli più recenti di Meta nell’AI Data Cloud, con un approccio globale di protezione e sicurezza integrato sin dalle basi.

“Il team di ricerca AI, di livello mondiale, di Snowflake sta tracciando una strada per le imprese e la comunità open source affinché possano sfruttare i modelli aperti più avanzati, come Llama 3.1 405B, per l’inferenza e il fine-tuning al fine di massimizzare l’efficienza”, ha dichiarato Vivek Raghunathan, VP of AI Engineering di Snowflake. “Non ci limitiamo a fornire direttamente ai nostri clienti la tecnologia più avanzata di Meta attraverso Snowflake Cortex AI, ma stiamo aiutando le aziende e la comunità AI attraverso una nuova ricerca e un codice open source che supporta Context windowda 128K, inferenza multi-nodo, una pipeline parallela, floating point quantization a 8 bit e molto altro ancora per far progredire l’AI in un ecosistema sempre più vasto”.

Il team di ricerca AI di Snowflake ha realizzato l’inferenza e il fine-tuning open source più veloce ed efficiente in termini di capacità di memoria

Il team di ricerca AI di Snowflake continua a spingersi oltre i confini dell’innovazione open source attraverso i suoi regolari contributi alla comunità AI e alla trasparenza su come sta sviluppando le tecnologie LLM all’avanguardia. In concomitanza con il lancio di Llama 3.1 405B, il team preposto sta ora rendendo open source il suo Massive LLM Inference and Fine-Tuning System Optimization Stack in collaborazione con DeepSpeed, Hugging Face, vLLM e la più ampia comunità AI. Questo risultato stabilisce un nuovo standard per i sistemi di inferenza e ottimizzazione open source per modelli con centinaia di miliardi di parametri.

L’elevata dimensione del modello e i requisiti di memoria rappresentano una sfida significativa per gli utenti che desiderano ottenere un’inferenza a bassa latenza per le applicazioni in tempo reale, un throughput elevato e il supporto per utilizzi di lunga durata dell’intelligenza artificiale generativa di livello enterprise comportano molti sforzi anche dal punto di vista economico. I requisiti di memoria per la conservazione del modello e degli stati di attivazione rendono inoltre estremamente onerosa l’ottimizzazione, mentre i cluster di GPU di grandi dimensioni necessari per l’adattamento degli stati del modello per l’addestramento sono spesso inaccessibili ai data scientist.

Lo stack di ottimizzazione del sistema Massive LLM Inference and Fine-Tuning di Snowflake affronta tutte queste sfide. Utilizzando tecniche avanzate di elaborazione in parallelo e ottimizzazione della memoria, Snowflake consente una progettazione veloce ed efficiente dell’AI, senza bisogno di infrastrutture complesse e costose. Nel caso di Llama 3.1 405B, lo stack di sistema di Snowflake offre prestazioni in tempo reale e ad alto rendimento su un solo nodo GPU e supporta un’enorme context window da 128k in configurazioni multi-nodo. Questa flessibilità si estende sia all’hardware di nuova generazione che a quello preesistente, rendendo Snowflake accessibile a una più ampia gamma di aziende. Inoltre, i data scientist possono fare tuning di Llama 3.1 405B utilizzando tecniche di mixed precision su un numero inferiore di GPU, eliminando la necessità di disporre di cluster di GPU di grandi dimensioni. Di conseguenza, le organizzazioni possono adattare e distribuire potenti applicazioni di AI generativa di livello enterprise in modo semplice, efficiente e sicuro.

Il team di AI di Snowflake ha inoltre sviluppato un’infrastruttura ottimizzata per il fine-tuning che comprende la differenziazione dei modelli, controlli di sicurezza, retrieval augmented generation (RAG) e la generazione di dati sintetici, in modo che le aziende possano facilmente iniziare a utilizzare questi casi d’uso all’interno di Cortex AI.

Snowflake Cortex AI rafforza l’impegno a fornire un’intelligenza artificiale affidabile e responsabile

La sicurezza dell’AI è di estrema importanza per Snowflake e i suoi clienti. Di conseguenza, Snowflake sta rendendo disponibile Snowflake Cortex Guard per proteggere qualsiasi applicazione o risorsa LLM costruita in Cortex AI da contenuti dannosi – sia utilizzando gli ultimi modelli di Meta, sia gli LLM disponibili presso altri fornitori leader, tra cui AI21 Labs, Google, Mistral AI, Reka e la stessa Snowflake. Cortex Guard si avvale di Llama Guard 2 di Meta, offrendo così un’AI affidabile per le aziende, in modo che possano assicurarsi che i modelli che stanno utilizzando siano sicuri.