Home » Blog
Blog
Data lakes: soluzioni in GCP
Nel mondo dei Big Data, la gestione dei dati grezzi ricopre un ruolo fondamentale. Nella maggioranza dei casi non è possibile caricare i dati forniti da diverse applicazioni in data warehouses al fine di creare modelli di Machine Learning o dashboards. I data lakes, ossia delle aree di sosta dei dati grezzi, ricoprono un ruolo fondamentale per effettuare le pipeline di trasformazione necessarie. Scopriamo quali soluzioni sono offerte da Google Cloud per implementare un data lake.
BigQuery: ottimizzazione delle performance
Nonostante BigQuery sia uno strumento molto valido per interrogare terabyte, è opportuno adottare delle best practices per migliorare le performance. Scopriamo i trucchi per scrivere query che vengano eseguite velocemente e che facciano risparmiare sui costi di esecuzione. Inoltre, analizziamo come è possibile ottimizzare la memorizzazione delle tabelle mediante il partizionamento e il clustering.
BigQuery: WINDOWS analitiche
In molti scenari applicativi, le statistiche che bisogna estrarre si riferiscono a raggruppamenti differenti sui dati di partenza. Mediante la definizione di finestre di aggregazione è possibile calcolare delle statistiche all’interno della stessa query. Inoltre, se necessario, è possibile anche fornire livelli differenti di granularità dei dati mediante la tipologia di dati degli ARRAY. Scopriamo queste funzionalità avanzate mediante due alcuni esempi reali.
BigQuery: funzioni GIS e Geo Vis
I dati geografici ricoprono un ruolo molto importante in diverse analisi. BigQuery include le funzioni GIS oltre allo standard SQL per interrogare, manipolare e analizzare questa tipologia di informazione. Scopriamo come usarle e visualizzarle mediante Geo Vis.
BigQuery: clausola WITH
L’estrazione dei dati e la loro analisi è un processo che richiede conoscenza delle sorgenti dati e capacità di scrittura di interrogazioni complesse. BigQuery, il database di Google, permette in modo semplice di accedere a terabyte di dati. La scrittura delle query però richiede metodo. Scopriamo la clausola WITH per aumentare la leggibilità delle nostre query.
Jupyter Notebook: guida al suo utilizzo
Lo sviluppo di pipeline di analisi dei dati da parte dei Data Scientists richiede diverse competenze. Avere a disposizione un’ambiente di sviluppo facile, intuitivo e interattivo è fondamentale. Jupyter Notebook è un’applicazione Web open source che permette di creare e condividere documenti testuali interattivi, contenenti oggetti quali equazioni, grafici e codice sorgente eseguibile in diversi linguaggi. Scopriamo le sue caratteristiche principali.