mercoledì 1 luglio 2020

#A6 Data Quality As A Service

Dopo essere tornati alla posizione di partenza lo scorso mese, ho avuto una intuizione ed ho costruito un primo prototipo di Data Quality As A Service.




Un nome migliore ancora non l'ho trovato, essendo veramente ai primi passi, ma il problema che cerca di risolvere è molto diffuso (almeno dal mio punto di vista):

Come posso controllare i dati, in vari formati e condividere con altri i controlli che ho effettuato ?

E' importante definire cos'è un controllo, per dare un esempio.

Prendiamo come esempio un insieme di dati con dei dati personali:

  • email: è importante che l'email abbia un formato specifico, per essere utilizzata successivamente, evidenziare gli errori di sintassi può essere lungo e tedioso, se effettuato tramite uno strumento come excel
  • controlli di formato: un dato dovrebbe essere numerico, ma lo è sempre? Ad esempio il prezzo di un articolo
  • controlli di valore: un certo dato non deve superare un valore di soglia. Ad esempio il peso di una macchinario potrebbe superare un valore impostato e dovrebbe essere segnalato correttamente
Verificare manualmente pochi dati è facile, centinaia è possibile, ma oltre ti serve uno strumento dedicato.

A che punto siamo

Il concetto alla base di DQAAS ( Data Quality As a Service) é quello che un utente può caricare dei dati ( diciamo in formato csv/excel per iniziare), averli a disposizione ed interrogarli in due modalità:

  1. tramite un'interfaccia per non tecnici che permetta di definire controlli sui dati, senza conoscere i tecnicismi dietro a quei controlli
  2. tramite query sql per utenti più tecnici

Secondo le mie ricerche questo genere di servizi esistono, sono forniti da grandi aziende (assieme a molti altri, chiaramente ) e richiedono grandi risorse hardware e software per funzionare.
La mia soluzione propone di aggirare questo problema, ed adottando un modello SaaS ( Software As A Service ), abbattere i costi.

Le persone che hanno bisogno di un simile livello di controllo sui loro dati si possono registrare sulla piattaforma DQAAS, caricare i loro dati, impostare i controlli ed ottenere i riscontri. Un passo importante é quello di condividere i controlli con altri membri della propria azienda, rendendo quindi lo stesso processo documentato e ripetibile.

Piani futuri

Voglio arrivare a creare un vero e proprio servizio di test, libero per chiunque, per poter valutare con dei potenziali utenti interessati la piattaforma e l'idea.

Devo quindi creare un minimo di interfaccia per rendere fruibile e comprensibile l'idea, vedremo se riesco entro il prossimo aggiornamento.

Nessun commento:

Posta un commento