Le stime di Gartner indicano che entro il 2028 almeno il 50% dei progetti GenAI supererà il budget iniziale, soprattutto a causa dell’architettura sottostante, inclusa la scelta del cloud pubblico, dal momento che i dati sia globali che a livello nazionale del Politecnico di Milano evidenziano come dominante quest’ultima infrastruttura nell’adozione dell’intelligenza artificiale nelle imprese.
Questi scostamenti sono dovuti in particolare alle caratteristiche strutturali del modello di pricing del cloud pubblico, che per sua natura rende trasparenti alcune voci di costo e ne lascia altre fuori dalla visibilità dell’azienda.
Mappare queste voci prima dell’avvio non è un esercizio di mera prudenza contabile, piuttosto è la condizione per costruire un business case che regga all’impatto con la produzione. L’esperienza su progetti complessi insegna che le sorprese non arrivano dai listini, ma da ciò che i listini non mostrano.
Tra queste voci, sei in particolare raramente vengono contemplate nei budget forecast delle imprese:
1. Il costo dell’inferenza in produzione
Nella fase sperimentale, i workload sono limitati e i volumi contenuti. Il problema emerge con il passaggio al regime operativo continuativo. L’inferenza in produzione ha volumi e frequenze completamente diversi. E i costi non crescono in modo lineare, dal momento che le architetture di calcolo distribuito su cloud pubblico hanno meccanismi di pricing che amplificano i costi in modo non intuitivo all’aumentare dell’intensità d’uso. Chi ha costruito il business case sulla fase sperimentale si trova a ricalibrare le proiezioni quando il sistema va a pieno regime. A conferma di ciò, le analisi di settore condotte dai principali cloud provider stimano che l’inferenza rappresenti fino all’80-90% dei costi totali di un modello di intelligenza artificiale nel suo intero ciclo di vita operativo. Un impatto che spinge anche le aziende di grandi dimensioni, a rivalutare la sostenibilità di questo modello, nonostante le proprie capacità di spesa;
2. L’egress dei dati
Sul cloud pubblico, il traffico dati in uscita ha un costo che nelle architetture RAG intensive o nelle pipeline di elaborazione documentale diventa rilevante. Raramente compare nelle stime iniziali, perché i modelli di costo ragionano in termini di potenza computazionale, non di flussi. In un’architettura RAG, ogni interrogazione attiva il recupero di frammenti dalla knowledge base, il loro invio al modello e la restituzione di una risposta strutturata. Moltiplicate questo schema per decine di migliaia di chiamate quotidiane e la voce egress diventa tutt’altro che marginale. Anche l’annuale “State of the Cloud Report” di Flexera, conferma le spese di rete e di “data egress” come una delle voci di spesa imprevista più insidiose, arrivando a pesare per il 10-15% del totale della fattura cloud in architetture ad alta movimentazione di dati;
3. Il costo dell’integrazione con i sistemi legacy
Le soluzioni AI su cloud pubblico vengono presentate come plug-and-play, ma non è così. L’adattamento ai sistemi esistenti, gestionali, CRM, archivi documentali, sistemi di autenticazione, richiede una progettazione e uno sviluppo con costi iniziali e di manutenzione che arrivano a coprire circa il 35% del budget, secondo MuleSoft. Paradossalmente, un’architettura di Private AI risulta spesso più semplice da integrare, perché i punti di connessione con i sistemi aziendali possono essere progettati senza i vincoli delle API di un provider terzo;
4. Il costo del time-to-value mal calcolato
Sul cloud pubblico, il time-to-value ha una dimensione economica diretta che va oltre il costo opportunità: ogni settimana aggiuntiva tra l’avvio e la messa in produzione è una settimana in cui si paga l’infrastruttura senza generare ritorno. Il modello a consumo del cloud amplifica questo effetto, perché i costi di sviluppo e test si accumulano sulle stesse voci che poi alimenteranno il sistema in produzione. Chi non pianifica la traiettoria di scaling fin dall’inizio si trova a sostenere picchi di spesa non previsti esattamente quando il sistema comincia a funzionare davvero. Un’indagine di IDC ha evidenziato che le organizzazioni impiegano in media dai 5 ai 6 mesi per portare un modello dal proof-of-concept iniziale alla messa in produzione su larga scala;
5. Il costo della compliance che si scopre in corsa
Per banche, sanità e pubblica amministrazione la compliance è un vincolo architetturale e quindi certi dati non possono uscire dal perimetro aziendale. Tuttavia il problema emerge anche altrove. Le architetture AI vengono progettate e solo successivamente, spesso quando si è già in produzione, si scopre che la residenza dei dati, la gestione di quelli personali o le policy interne di sicurezza impongono modifiche significative. Retro-progettare la compliance ha un costo superiore (fino a 6 volte) rispetto a quello sostenuto integrandoli nativamente nella primissima fase di design architetturale;
6. Il costo della proprietà intellettuale esposta
Quando un’azienda effettua fine-tuning su dati interni verticali come la documentazione tecnica proprietaria, i dati storici di produzione o il know-how di processo, quel modello incorpora un patrimonio con valore strategico reale. Mantenerlo su infrastruttura condivisa, anche con adeguate garanzie contrattuali, introduce un profilo di rischio che cresce proporzionalmente alla qualità e alla specificità dei dati utilizzati. La protezione della proprietà intellettuale è un tema di governance che non può essere delegato alle clausole di un contratto SaaS, bensì richiede scelte architetturali esplicite a partire dalla valutazione di un’infrastruttura dedicata, che vanno prese prima, non a sistema già addestrato. Un tema di governance percepito da oltre il 57% dei leader IT e dei CISO come la preoccupazione numero uno legata all’uso dell’AI su piattaforme di cloud pubblico, come rilevato dall’Executive Survey di Gartner.
Governare correttamente queste variabili prima dell’avvio della produzione dimostra un approccio di Application Development maturo, indispensabile per rendere il progetto AI sostenibile in un mercato dove la distanza tra un proof of concept e un sistema operativo AI powered efficace ed efficiente si misura spesso anche in budget bruciati e aspettative disattese.

