Pour rappel, nous travaillons à la mise en place d’un datalake/datalakehouse « dans » Azure Synapse Analytics (et son workspace). Ce scénario tourne donc autour de deux solutions que sont :
- Storage account / Data Lake Storage –> le « datalake »
- Synapse workspace –> L’environnement de développement et d’intégration
Cet article est centré autour de la création du workspace Synapse.
Création du Workspace
Synapse est un service intégré d’Azure et comme toute création dans Azure, en commençant à taper son nom dans la recherche, on tombe sur un lien spécifique du service en question.
C’est dans cette page que l’on va avoir le choix de créer un nouveau service en cliquant sur le « + ».
Configuration du projet
La configuration commence très classiquement par les détails de plus haut niveau de notre projet avec la souscription Azure qui sera utilisé et le ressource groupe utilisé. Pour la souscription, la question se pose très rarement à notre niveau et ce sera très certainement la souscription à laquelle vos administrateurs vous ont donné accès ou celle créée pour l’occasion.
Ressources group
Au niveau du ressource group, il y a plusieurs stratégies. Celle que nous utiliserons ici et globalement dans l’ensemble de cette série d’articles est de créer un « rg » (Ressource Group), pour toutes les ressources utilisées dans un environnement pour un projet. La gestion des rg est un sujet à part entière qui n’est pas traité ici, mais il faut comprendre que cela regroupe des ressources différentes et que cela rend la visibilité/gestion de ressources liées plus simple. On peut voir le coût Azure par rg, on peut supprimer en une commande toutes les ressources d’un rg, …
La traduction dans notre cas est la suivante :
- 1 rg pour notre Datalake de DEV
- 1 rg pour notre Datalake de PROD
- 1 rg pour des ressources « cross projets »
Pour notre scénario, c’est la première ressource que nous créons et nous allons donc en profiter pour créer aussi notre premier rg qui est ici nommé « NiceData-Datalake-dev »
Le workspace
Nous allons maintenant créer notre workspace à proprement parler. Il faut un nom, une localisation et un espace de stockage pour « stocker » toutes les données propres au workspace. Le compte de stockage ici utilisé servira de compte de stockage « principale » de Synapse. C’est ici que Synapse pourra stoker les logs ou tables créées via Spark par exemple. Ce compte ne sera pas notre « datalake » à proprement parler, mais plutôt l’espace de travail de Synapse. Le système de fichier renseigné ici deviendra un container de notre compte de stockage nouvellement créé.
Sécurité et Réseau
Au niveau de la sécurité, vos administrateurs et/ou équipes techniques devraient normalement être là pour répondre à toutes vos interrogations. Dans notre cas, nous allons faire une configuration « Simple » en n’autorisant que la connexion Azure AD et ne pas utiliser de clef d’encryption personnalisée.
Le réseau peut être configuré dès la création, mais pour l’exemple, nous allons laisser par défaut et configurer celui-ci plus tard.
Les Tags
Concernant les tags, c’est un moyen de donner du sens à nos ressources. Ces tags n’ont aucune utilité technique, mais nous permette simplement d’identifier les usages d’une ressource. Dans certaines entreprises des tags peuvent être définis par équipe pour identifier quelle équipe est propriétaire de la ressource.
Dans notre cas, nous allons simplement identifier « l’application » et l’environnement de nos ressources :
A la fin de la configuration, nous avons une page de récap qui nous informe aussi de la tarification d’un workspace Synapse.
Nous pouvons maintenant créer le service et attendre la fin du déploiement.
Configuration et connexion au service
Une fois le service créer, nous pouvons accéder au « Tableau de bord » de celui-ci en cliquant sur le lien proposé à la fin du déploiement ou en le recherchant dans notre Dashboard pour arriver sur la page suivante :
Nous avions tous à l’heure laissée de côté la configuration réseau pour plus tard. L’idée était de naviguer dans les configurations du service pour faire ou refaire les différentes configurations. Dans le panneau de gauche, nous trouvons dans la partie « Sécurité » le lien pour aller configurer le « Réseau ».
La première chose à faire est de supprimer la ligne du Firewall autorisant un accès à toutes les adresses IP :
Nous allons ensuite autoriser notre IP à nous connecter. L’interface nous propose pour ce faire d’ajouter l’IP de notre client au firewall pour nous simplifier la tâche. Il est possible de renseigner une plage d’IP pour les configurations d’entreprises les plus complexes ou de créer plusieurs règles pour des accès multiples (entreprise / maison par exemple).
Nous pouvons maintenant nous connecter à notre environnement de développement en utilisant l’URL spécifique du type https://web.azuresynapse.net?workspace=%2fsubscriptions%2.......
que le trouve sur le « tableau de bord de notre ressource ou en cliquant sur le lien de la page d’accueil :
A ce stade, le plus sage est de mettre ce lien dans nos favoris, car nous allons y revenir souvent !
Conclusion
A ce stade, notre workspace est prêt et opérationnel. Nous pouvons commencer à faire du développement et analyser nos données si on le souhaite. Cependant, nous n’allons pas présenter le studio, car ce n’est pas l’objet de cet article et nous aurons l’occasion de naviguer dans l’ensemble des menues lors de nos prochains développements pour rendre notre datalake opérationnel.