Accueil » Création d’un Datalake avec Azure Synapse Analytique

Création d’un Datalake avec Azure Synapse Analytique

Synapse background

Cette page à pour but de centraliser le projet de création d’un Datalake dans Azure Synapse Analytique. Nous retrouverons ici l’ensemble des articles liés à celui-ci et un ordonnancement logique pour suivre celui-ci.

Cette page est (et sera) en constante évolution pour refléter l’avancement du projet via les différents articles publiés ici. N’hésitez pas à y revenir pour voir les nouveaux articles.

Définitions

Définition de notre projet : Un Data Lakehouse fonctionnel avec Azure Synapse Analytics – NiceData

Notre sample de donnée : Wide World Importers – BDD source du projet – NiceData

Mise en place de la plateforme

Création des ressources

L’environnement de travail : Création de l’environnement de travail : Azure Synapse Analytics – Workspace

Le stockage (le lake) : Création des ressources de stockage : Azure Synapse Analytics – Azure Blob Storage

La passerelle de communication cloud / On-Prem : Configurer un runtime dans Synapse pour la connexion à une base de donnée On-Prem

Mise en cluster d’une passerelle : Mise en cluster d’un runtime d’intégration auto-hébergé – NiceData

Gestion des développements

Versionning du code source : git + synapse, gestion de version et de code source

Mise en œuvre du Datalake

L’architecture de nos zones de Datalake : Zones de Datalake selon les « bonnes pratiques » Microsoft – NiceData

Connexion et autorisations entre Synase et le Datalake : Connexion du Lake à Synapse – NiceData

Ingestion des données : Paramétrer les Pipeline Azure Synapse Analytics sans ouvrir Synapse !

Transformation de données en SPARK : Notre premier notebook Spark dans Synapse

Créer un dataset partitionné en fichier parquets : Générer un dataset partitionné via un data flow Azure Synapse Analytics

Exploitation des données via PowerBI

Création d’un Dataset (modèle sémantique) : Créer un dataset Power BI depuis notre Synapse DataLakeHouse

Raffraichir un dataset (modèle sémantique) : Rafraichir un dataset Power BI depuis Azure Synapse Analytics