Cerved
  • ITA
Homepage/AI & Innovation/Artificial Intelligence/Alla Scoperta del "Data-Centric AI" e del Framework per l'EDA

15 GENNAIO 2025

Alla Scoperta del "Data-Centric AI" e del Framework per l'EDA

Investire in pulizia, organizzazione e coerenza dei dati consente di ottenere modelli AI più performanti

L'Intelligenza Artificiale (AI) sta avendo un impatto profondo in quasi ogni settore e nella nostra vita quotidiana in modo pervasivo. È un cambiamento inevitabile che può condurci a nuove opportunità e difficoltà.

Negli ultimi anni, il ruolo dei dati nell’AI è stato nuovamente amplificato, dando origine al concetto emergente di Data-Centric AI. L'attenzione di ricercatori e professionisti si sta gradualmente spostando dal miglioramento della progettazione dei modelli di AI modello-centrica (Model-Centric AI) all'ottimizzazione della qualità e della quantità dei dati utilizzati per addestrarli. Un modello AI può essere avanzato e ottimizzato con l’affinamento di tutti i suoi parametri ma se i dati per il training del modello (ingredienti) sono di modesta qualità, anche il risultato finale sarà compromesso.

Che cos'è il "Data-Centric AI"?

Il concetto di Data-Centric AI, formalizzato dal manifesto di Andrew Ng e del suo team, si basa su un principio chiave: "dati di alta qualità superano la complessità degli algoritmi". Questo significa che investire nella pulizia, nell'organizzazione e nella coerenza dei dati consente di ottenere modelli AI più performanti. Mentre in passato la ricerca si concentrava prevalentemente sul miglioramento degli algoritmi e delle architetture dei modelli, oggi l'attenzione è rivolta all'ingegnerizzazione sistematica dei dati, considerati il vero motore per il successo dei modelli.

La data-centric AI si fonda su tre obiettivi principali, che coprono l'intero ciclo di vita dei dati:

  1. miglioramento dei dati per l'addestramento: migliorare la qualità, l'accuratezza e la coerenza dei dati utilizzati per addestrare i modelli;
  2. miglioramento dei dati per l’inferenza: curare i dati utilizzati in fase di previsione o classificazione come input per garantire risultati più affidabili e precisi;
  3. manutenzione dei dati: assicurare che i dati siano costantemente aggiornati, puliti e ben gestiti nel tempo per mantenere elevate prestazioni dei modelli AI.

Il framework per Exploratory Data Analysis

In Cerved, l'applicazione pratica dei principi del Data-Centric AI passa attraverso un framework dedicato all'Exploratory Data Analysis (EDA). L'EDA è una fase preliminare e fondamentale per analizzare i dati, individuare anomalie e prendere decisioni informate per migliorare la qualità delle informazioni e la costruzione dei modelli di intelligenza artificiale.

Questo framework, strutturato per facilitare e ottimizzare l'analisi esplorativa, si sviluppa in diverse fasi:

  1. profilazione dei dati: un processo di analisi che permette di comprendere la natura e la struttura dei dati, identificando parametri chiave come valori mancanti, outlier, e distribuzioni delle variabili;
  2. validazione della qualità: individuazione di errori, duplicati e incoerenze attraverso strumenti automatizzati che segnalano le aree critiche;
  3. valutazione della rappresentatività: misurazione di quanto i dati siano equilibrati rispetto agli obiettivi finali, evitando bias e distorsioni;
  4. pulizia e arricchimento dei dati: implementazione di soluzioni per normalizzare, completare e rendere più consistenti i dataset;
  5. iterazione e documentazione: una volta migliorati i dati, il framework prevede un ciclo iterativo per monitorare e documentare i progressi.

Perché il Data-Centric AI è cruciale per Cerved?

In un contesto aziendale come quello di Cerved, in cui l'accesso ai dati di alta qualità rappresenta un fattore strategico per il valore trasferibile ai clienti con i nostri prodotti e un vantaggio competitivo, adottare un approccio Data-Centric AI ci permette di:

  • ottimizzare i modelli AI con risultati più accurati e affidabili;
  • ridurre i tempi di sviluppo grazie a dati già validati e di alta qualità;
  • garantire decisioni data-driven più solide a beneficio dei nostri clienti e partner;
  • migliorare l'efficienza nei processi di analisi e implementazione delle soluzioni AI;
  • mantenere e migliorare la qualità degli algoritmi di intelligenza artificiale.

Un futuro più "centrato sui dati"

Adottare il Data-Centric AI non significa solo migliorare i nostri modelli di intelligenza artificiale, ma cogliere la tendenza evolutiva dei grandi player mondiali dall’intelligenza artificiale. Grazie al framework per l'EDA, possiamo affrontare con successo le sfide più complesse, assicurandoci di partire da basi dati solide, pulite e ottimizzate.

È il momento di accelerare sui dati e considerarli non come semplici input, ma come il cuore pulsante delle nostre soluzioni AI. Investire nei dati significa investire nella possibilità di portare valore ai nostri clienti.

La visione olistica della Data-Centric AI, che attraversa tutte le fasi del ciclo di vita dei dati, rappresenta dunque la chiave per il futuro sviluppo dell'Intelligenza artificiale.

La normativa AI Act ed il Data-Centric AI

L'AI Act dell'Unione Europea stabilisce regole chiare per garantire che i sistemi AI siano sicuri, trasparenti ed etici. Uno degli aspetti fondamentali riguarda la qualità dei dati utilizzati per sviluppare e implementare i sistemi di IA, poiché:

  • dati di bassa qualità possono portare a previsioni errate e introdurre bias nei sistemi AI;
  • dati non rappresentativi possono compromettere l'affidabilità e la sicurezza dei modelli, soprattutto in contesti ad alto rischio (es. sanità, giustizia, infrastrutture critiche).

L'AI Act prevede quindi che i sistemi ad alto rischio debbano rispettare rigorosi requisiti di qualità dei dati, tra cui:

  • accuratezza: I dati devono essere precisi e aggiornati;
  • completezza: I dataset devono essere rappresentativi del problema trattato;
  • non-discriminazione: È essenziale evitare bias o distorsioni nei dati che possano causare risultati discriminatori.

L'approccio Data-Centric AI aiuta ed è decisivo per soddisfare i requisiti dell'AI Act, in particolare per i sistemi classificati come ad alto rischio. Questo approccio si concentra sull'ingegnerizzazione sistematica dei dati per migliorare la qualità e ridurre i bias ovvero le distorsioni, rendendo i sistemi AI più affidabili.

In Cerved, sposare il Data-Centric AI non è solo un’evoluzione tecnica: è una vera cultura dei dati. Questa modalità di lavorare sull’intelligenza artificiale rende i nostri prodotti più affidabili e performanti, supporta le scelte dei clienti in modo etico, sicuro e trasparente, e alimenta il nostro impegno a offrire soluzioni che migliorano concretamente il loro mondo.