Business Intelligence: Dal Source System al Data Warehouse: processo di ETL

I tool di ETL costituiscono una componente fondamentale del Data Warehouse in quanto guidano l’estrazione periodica dei dati dalle sorgenti di input, e la loro integrazione, riorganizzazione e caricamento nel Data Warehouse. Per scaricare il testo completo e per avere maggiori informazioni, clicca QUIrn

I tool di ETL costituiscono una componente fondamentale del Data Warehouse in quanto guidano l'estrazione periodica dei dati dalle sorgenti di input, e la loro integrazione, riorganizzazione e caricamento nel Data Warehouse.

Diverse sono le fasi di un processo ETL. L’estrazione, il primo di essi, implica la predisposizione di routine in grado di leggere i record contenuti nel database sorgente e di predisporli per la successiva fase di trasformazione. Trasformazione La maggior parte dei tool prevede routine di estrazione specifiche per i più noti sistemi ERP.o.i.più.diffusi.applicativi. Dopo aver raccolto i dati, le routine di trasformazione provvedono a prepararli per la loro nuova collocazione. Esistono diverse tecniche di trasformazione. L’aggregazione consente di rimpiazzare numerosi record dettagliati con pochi record riassuntivi che vengono immagazzinati nelle soluzioni di Business Intelligence. I data mart e i data warehouse, che costituiscono il cuore delle soluzioni di Business Intelligence, sono dei mini-database che consentono agli utenti di analizzare metadati – ovvero set, insiemi di dati preventivamente aggregati e riassunti sulla base di criteri definiti – presentati secondo modalità piuttosto intuitive (come i grafici), allo scopo di verificare trend, macro-tendenze e caratteri salienti di un determinato fenomeno. I data mart non richiedono informazioni dettagliate ma dati aggregati, in modo da poter essere utilizzati direttamente dal responsabile decisionale, riducendo i tempi e migliorando l’utilizzo delle informazioni. I responsabili marketing di una società potranno ad esempio utilizzare i data mart per avere un’idea dell’esito delle campagne di advertising e comunicazione degli ultimi cinque anni, i responsabili vendite potranno utilizzare i dati di vendita ‘concentrati’ per esaminare il fatturato di ciascun prodotto.nel.corso.degli.ultimi.anni.di.attività. Filtraggio/Pulizia Gli applicativi ETL aggregano i dati con pochi sforzi. La traduzione in valori dei dati è una tecnica di trasformazione utilizzata di frequente. I database operativi, infatti, immagazzinano informazioni codificate, allo scopo di ridurre al minimo lo spazio occupato. Tuttavia, i data mart contengono informazioni riassunte e sono pensati per un facile utilizzo. Oltre a derivare campi in modo semplice, dall’unione di due o più campi precedenti, i software ETL permettono anche di crearne di nuovi, attraverso l’impiego di funzioni matematiche o statistiche e analisi logiche. Una routine di trasformazione è la pulitura, ovvero l’utilizzo di algoritmi per eliminare dal sistema i dati non accurati o non consistenti rispetto al fenomeno da valutare. Le funzionalità di pulitura possono essere utilizzate anche per sostituire con un singolo valore i dati che figurano in molteplici modalità all’interno del database: il nome Fiat può figurare sotto diversi campi, come Fiat S.p.A., Fiat Auto, Fiat ecc. e durante la fase di pulitura le versioni multiple dello stesso dato saranno sostituite da un singolo – univoco – dato. Caricamento L’ultima fase del processo ETL è il caricamento dei dati nella base dati di destinazione. Nella fase di caricamento esistono due modelli distinti di replicazione dei dati. Nella replicazione ‘push’, l’applicativo spinge i dati trasformati al database di destinazione. Nella replicazione ‘pull’, al contrario, l’applicazione o il database di destinazione richiedono i dati, in conformità alle esigenze specifiche del momento. I sistemi di ETL sono infatti l’infrastruttura chiave per il supporto decisionale dei sistemi di Business Intelligence. Si tratta di che consentono di trasformare i dati e i contenuti non organizzati in informazioni strategicamente utili per prendere decisioni critiche e operare con efficacia. Questo viene chiamato Information Asset Management, che consente di raccogliere, validare, organizzare, gestire e distribuire la corretta informazione alla persona giusta, nei tempi necessari e con lo strumento più idoneo. Il Data Warehouse, come accennato in precedenza, è l’insieme delle strutture dati e degli strumenti necessari per fornire ai manager un supporto decisionale. Le informazioni utili in questo senso sono ricavate da dati operazionali prodotti e gestiti da un innovativo sistema informativo aziendale. Il Data Warehouse non è solo una novità tecnologica ma anche strategica, in quanto l’attività di analisi viene a spostarsi da personale specializzato a tutti i manager dell’azienda. Comprendere le tendenze e fare dei paragoni prima di prendere decisioni importanti diventa più facile grazie ad informazioni a livello aggregato che possono essere visualizzate ed analizzate rapidamente. L’accesso a dati dettagliati viene eseguito se necessario. Il Data Warehouse è alla base di ogni applicazione di Analytical CRM in quanto rappresenta il mezzo per collezionare, validare, integrare e storicizzare i dati aziendali sul cliente derivanti dai canali classici o dal canale Web che costituiscono l’input delle attività di analisi (i DB si cui si appoggia sono di tipo relazionale, ossia interrogabili direttamente tramite l’S.Q.L., Structured Query Language). E’, inoltre, l’insieme delle strutture dati e degli strumenti necessari per ottenere, a partire dai dati operazionali prodotti e gestiti da un sistema informativo aziendale, informazioni utili ai manager come supporto alle decisioni. Con Webhouse si intende un Data Warehouse che raccoglie anche dati provenienti dal canale web (clickstream, registrazioni degli utenti, eccetera). Il Data Warehouse è una base dati con le seguenti caratteristiche: • Subject-oriented: i dati sono organizzati in funzione di uno specifico processo aziendale. • Integrated: i dati che confluiscono nel Data Warehouse provengono normalmente da varie sorgenti (sistemi transazionali, operazionali, altri data base). Vengono ripuliti e trasformati per consentirne un accesso semplice ed efficace. • Non-volatile: l’accesso ai dati avviene in sola lettura e risulta estremamente rapido. • Time-variant: i dati vengono organizzati secondo la dimensione temporale, fondamentale ai fini delle analisi di business. A differenza dei Source System – in particolare degli OLTP – i DWH sono disegnati e ottimizzati per l’analytical processing. In collaborazione con altri tool e applicazioni i DWH costituiscono i sistemi OLAP (On-Line Analytical Processing System). Tra le definizioni più diffusamente riconosciute di Data Warehouse, due in particolare ne identificano le caratteristiche peculiari: “Una piattaforma sulla quale vengono archiviati e gestiti dati provenienti dalle diverse aree dell’organizzazione; tali dati sono aggiornati, integrati e consolidati dai sistemi di carattere operativo per supportare tutte le applicazioni di supporto alle decisioni ” (Gartner Group) “Un insieme di dati subject oriented, integrato, time variant, non volatile costruito per supportare il processo decisionale” (W.H.Inmon) Si sottolinea quindi anzitutto la caratteristica del Data Warehouse come collezione di dati a supporto del processo decisionale del management. Il Data Warehouse raggruppa i dati decisionali per aree o temi di interesse e li organizza rispetto all’utilizzazione finale; si differenzia in questo dai tradizionali database il cui disegno è guidato dai requisiti delle applicazioni che garantiscono i processi gestionali. In ambito Data Warehouse le informazioni assumono un valore aziendale piuttosto che dipartimentale, perchè sono il risultato integrato di dati provenienti da più fonti, anche esterne all’azienda. Tutte le informazioni sono rese coerenti da un modello comune dei dati e dalla definizione di standard aziendali (naming convention, unità di misura, codifiche). Ha un orizzonte temporale ampio, garantendo il mantenimento di informazioni storiche, in modo da poter favorire le attività di analisi comparative su diversi periodi temporali. Le informazioni sono consolidate, consistenti nel tempo e non modificabili dall’utente che le accede esclusivamente in lettura. Con il termine Data Mart si indicano delle collezioni di informazioni mirate ad un utenza dipartimentale e orientate ad un tema specifico. Il livello di aggregazione dei dati nel Data Mart risulta spesso più al
to che nel Data Warehouse, che contiene anche dati di dettaglio, in quanto è disegnato per soddisfare in modo più diretto ed esplicito le esigenze dell’utente finale. E’ evidente l’importanza del principio della separazione tra ambienti operazionali e ambienti decisionali, informativi. La contemporanea insistenza di due classi di utenza di diversa natura e con diversa funzionalità sulla stessa base dati porrebbe problemi di contesa, creando tempi di risposta non pianificabili e spesso inaccettabili per i processi transazionali. D’altronde la necessaria separazione degli ambienti, ottenuta attraverso un processo di mera replica degli ambienti transazionali non risponde comunque alle esigenze, perché i database operazionali sono mirati al processo e non forniscono una visione integrata dei dati di interesse. L’obiettivo del Data Warehouse è dare una risposta tempestiva e corretta a problemi decisionali legati alle attività istituzionali dell’Amministrazione, garantendo migliori risultati in termini di efficacia ed efficienza. L’esigenza informativa ovviamente non è nuova, ma da un punto di vista tecnologico oggi esistono le condizioni per supportare questa richiesta in maniera adeguata. Gli aspetti tecnologici abilitanti sono la disponibilità di potenza elaborativa per gestire grossi volumi di dati a basso costo e la possibilità di distribuzione delle informazioni tramite tecnologia intranet/internet. Va sottolineato però che, se il fattore tecnologico è presupposto necessario per lo sviluppo di soluzioni di Data Warehouse, il fattore critico di successo è il coinvolgimento dell’utente finale. Solo un’adeguata sponsorizzazione da parte del management può garantire il necessario contributo nel progetto di diversi settori aziendali con il relativo apporto di conoscenza dei processi e dei dati. RIPRODUZIONE RISERVATA.

Pubblicato in

Se vuoi rimanere aggiornato su Business Intelligence: Dal Source System al Data Warehouse: processo di ETL iscriviti alla nostra newsletter settimanale

Commenta per primo

Lascia un commento

L'indirizzo email non sarà pubblicato.


*