Databricks introduce il Data Lineage per Unity Catalog

Databricks ha annunciato il data lineage per Unity Catalog, potenziando significativamente le funzionalità di data governance nel lakehouse. Il data lineage definisce il modo in cui i dati circolano all'interno di un'organizzazione.

Grazie a questa nuova funzionalità di Unity Catalog, i clienti sono in grado di ottenere visibilità sulla provenienza dei dati nel proprio lakehouse, su chi li ha prodotti e quando, chi li ha modificati nel tempo e utilizzati. Il data lineage per Unity Catalog è ora disponibile in anteprima su AWS e Microsoft Azure.

Con il data lineage per Unity Catalog, i data team possono vedere tutti i soggetti interessati dalle modifiche dei dati - applicazioni, dashboard, modelli di machine learning o set di dati, ecc. – comprendendo facilmente la portata del loro impatto, al fine di notificare rapidamente eventuali modifiche agli stakeholder interessati.

Il data lineage consente agli operatori dei dati, come data scientist, data engineer e data analysts, di comprendere il contesto in cui eseguono le analisi, producendo risultati di qualità superiore. Inoltre, i data steward possono individuare i set di dati a cui non è più possibile accedere o quelli obsoleti e provvedere alla loro eliminazione, riducendo così i rischi e assicurando che gli utenti finali utilizzino solo dati di elevata qualità.

Le nuove funzionalità di Unity Catalog offrono alle aziende una visione completa dell'intero ciclo di vita dei dati, in modo che i data leader possano comprendere come vengono acquisiti, se sono aggiornati e i relativi processi utilizzati.

"Le potenzialità di governance, come il data lineage, sono fondamentali per la realizzazione della piattaforma lakehouse più solida del settore", ha dichiarato Matei Zaharia, Co-Founder and Chief Technologist di Databricks.

"In assenza di un buon data lineage, è difficile tracciare i processi di business e di verifica di cui le organizzazioni data-driven devono disporre per avere successo. Il nostro obiettivo è garantire che i nostri clienti possano concentrarsi sugli insight e orientarsi verso pratiche proattive di gestione dei dati grazie a una visione unificata e trasparente del loro intero ecosistema di dati".

Le caratteristiche principali di Unity Catalog comprendono un automated run-time lineage che permette di acquisire tutto il lineage generato in Databricks, offrendo maggiore precisione ed efficienza rispetto al tagging manuale dei dati.

Queste informazioni vengono acquisite per tabelle, viste e colonne per fornire un quadro dettagliato dei flussi di dati di upstream e downstream. Inoltre, il lineage opera su tutti i carichi di lavoro supportati da Databricks, compresi SQL, Python, R e Scala, consentendo a tutte le data personas di arricchire i propri strumenti con data intelligence e insight ottimizzati. Ciò include l'acquisizione del lineage per notebook, flussi di lavoro e dashboard.

Inoltre, il data lineage agevola le aziende nel rispetto degli standard di conformità, facilitando la tracciabilità dei flussi di dati soggetti a normative di conformità come il General Data Protection Regulation (GDPR), il California Consumer Privacy Act (CCPA) o l'Health Insurance Portability and Accountability Act (HIPAA). Questo elemento di tracciabilità dei dati è un aspetto essenziale di una moderna architettura dati che consente ai clienti di rispettare i vincoli legali.