Blog

Google Cloud
Alessandro Fiori

Data lakes: soluzioni in GCP

Nel mondo dei Big Data, la gestione dei dati grezzi ricopre un ruolo fondamentale. Nella maggioranza dei casi non è possibile caricare i dati forniti da diverse applicazioni in data warehouses al fine di creare modelli di Machine Learning o dashboards. I data lakes, ossia delle aree di sosta dei dati grezzi, ricoprono un ruolo fondamentale per effettuare le pipeline di trasformazione necessarie. Scopriamo quali soluzioni sono offerte da Google Cloud per implementare un data lake.

Leggi Tutto »
Google Cloud
Alessandro Fiori

BigQuery: ottimizzazione delle performance

Nonostante BigQuery sia uno strumento molto valido per interrogare terabyte, è opportuno adottare delle best practices per migliorare le performance. Scopriamo i trucchi per scrivere query che vengano eseguite velocemente e che facciano risparmiare sui costi di esecuzione. Inoltre, analizziamo come è possibile ottimizzare la memorizzazione delle tabelle mediante il partizionamento e il clustering.

Leggi Tutto »
Google Cloud
Alessandro Fiori

BigQuery: WINDOWS analitiche

In molti scenari applicativi, le statistiche che bisogna estrarre si riferiscono a raggruppamenti differenti sui dati di partenza. Mediante la definizione di finestre di aggregazione è possibile calcolare delle statistiche all’interno della stessa query. Inoltre, se necessario, è possibile anche fornire livelli differenti di granularità dei dati mediante la tipologia di dati degli ARRAY. Scopriamo queste funzionalità avanzate mediante due alcuni esempi reali.

Leggi Tutto »
Google Cloud
Alessandro Fiori

BigQuery: funzioni GIS e Geo Vis

I dati geografici ricoprono un ruolo molto importante in diverse analisi. BigQuery include le funzioni GIS oltre allo standard SQL per interrogare, manipolare e analizzare questa tipologia di informazione. Scopriamo come usarle e visualizzarle mediante Geo Vis.

Leggi Tutto »
Google Cloud
Alessandro Fiori

BigQuery: clausola WITH

L’estrazione dei dati e la loro analisi è un processo che richiede conoscenza delle sorgenti dati e capacità di scrittura di interrogazioni complesse. BigQuery, il database di Google, permette in modo semplice di accedere a terabyte di dati. La scrittura delle query però richiede metodo. Scopriamo la clausola WITH per aumentare la leggibilità delle nostre query.

Leggi Tutto »
Python
Alessandro Fiori

Jupyter Notebook: guida al suo utilizzo

Lo sviluppo di pipeline di analisi dei dati da parte dei Data Scientists richiede diverse competenze. Avere a disposizione un’ambiente di sviluppo facile, intuitivo e interattivo è fondamentale. Jupyter Notebook è un’applicazione Web open source che permette di creare e condividere documenti testuali interattivi, contenenti oggetti quali equazioni, grafici e codice sorgente eseguibile in diversi linguaggi. Scopriamo le sue caratteristiche principali.

Leggi Tutto »
Design with MongoDB

Design with MongoDB!!!

Buy the new book that will help you to use MongoDB correctly for your applications. Available now on Amazon!