Cette page à pour but de centraliser le projet de création d’un Datalake dans Azure Synapse Analytique. Nous retrouverons ici l’ensemble des articles liés à celui-ci et un ordonnancement logique pour suivre celui-ci.
Cette page est (et sera) en constante évolution pour refléter l’avancement du projet via les différents articles publiés ici. N’hésitez pas à y revenir pour voir les nouveaux articles.
Définitions
Définition de notre projet : Un Data Lakehouse fonctionnel avec Azure Synapse Analytics – NiceData
Notre sample de donnée : Wide World Importers – BDD source du projet – NiceData
Mise en place de la plateforme
Création des ressources
L’environnement de travail : Création de l’environnement de travail : Azure Synapse Analytics – Workspace
Le stockage (le lake) : Création des ressources de stockage : Azure Synapse Analytics – Azure Blob Storage
La passerelle de communication cloud / On-Prem : Configurer un runtime dans Synapse pour la connexion à une base de donnée On-Prem
Mise en cluster d’une passerelle : Mise en cluster d’un runtime d’intégration auto-hébergé – NiceData
Gestion des développements
Versionning du code source : git + synapse, gestion de version et de code source
Mise en œuvre du Datalake
L’architecture de nos zones de Datalake : Zones de Datalake selon les « bonnes pratiques » Microsoft – NiceData
Connexion et autorisations entre Synase et le Datalake : Connexion du Lake à Synapse – NiceData
Ingestion des données : Paramétrer les Pipeline Azure Synapse Analytics sans ouvrir Synapse !
Transformation de données en SPARK : Notre premier notebook Spark dans Synapse
Créer un dataset partitionné en fichier parquets : Générer un dataset partitionné via un data flow Azure Synapse Analytics
Exploitation des données via PowerBI
Création d’un Dataset (modèle sémantique) : Créer un dataset Power BI depuis notre Synapse DataLakeHouse
Raffraichir un dataset (modèle sémantique) : Rafraichir un dataset Power BI depuis Azure Synapse Analytics