[EXPERT'TECH] Azure Data Lake Gen2

Cet article est la suite de l’article « [Expert’tech] Azure Data Lake Gen1 ». Pour une meilleure compréhension, il est recommandé de lire l’article part 1.

Azure Data Lake Storage Gen2 est un ensemble de fonctionnalités dédiées à l’analytique du Big Data et intégrées au service Stockage Blob Azure. La préversion de Data Lake Storage Gen2 rassemble les fonctionnalités de nos deux services de stockage existants : Stockage Blob Azure et Azure Data Lake Storage Gen1.

Les fonctionnalités d’Azure Data Lake Storage Gen1, comme la sémantique des systèmes de fichiers, le répertoire, la sécurité au niveau du fichier et la mise à l’échelle, sont combinées à celles du stockage Blob Azure, comme le stockage hiérarchisé économique et la haute disponibilité/reprise après sinistre.

Accès compatible Hadoop

Azure Data Lake Storage Gen2 vous permet de gérer les données et d’y accéder comme vous le feriez avec un système de fichiers HDFS (Hadoop Distributed File System).

Sur ensemble d’autorisations POSIX

Le modèle de sécurité pour Data Lake Gen2 prend en charge les autorisations ACL et POSIX, ainsi que certaines granularités supplémentaires spécifiques à Data Lake Storage Gen2.

Rentabilité

Data Lake Storage Gen2 offre une capacité de stockage et des transactions à bas coût. Tout au long du cycle de vie des données, les taux de facturation changent pour maintenir les coûts au minimum par le biais de fonctionnalités intégrées comme le cycle de vie du Stockage Blob Azure.

Pilote optimisé

Le pilote ABFS est optimisé spécifiquement pour l’analytique Big. Le pilote ABFS est disponible dans tous les environnements Apache Hadoop, y compris Azure HDInsight , Azure Databricks et SQL Data Warehouse pour accéder aux données stockées dans Data Lake Storage Gen2.

Conçu pour l’analytique du Big Data d’entreprise

Data Lake Storage Gen2 fait du stockage Azure la base pour créer des dépôts Data Lake d’entreprise sur Azure. Conçu dès le départ pour traiter plusieurs téraoctets d’informations tout en assurant des centaines de giga-octets de débit, Data Lake Storage Gen2 vous permet de facilement gérer d’importants volumes de données.

Une caractéristique fondamentale de Data Lake Storage Gen2 est l’ajout d’un espace de noms hiérarchique au stockage Blob. L’espace de noms hiérarchique organise les objets/fichiers dans une hiérarchie de répertoires pour offrir un accès efficace aux données. Des opérations comme le renommage ou la suppression d’un répertoire deviennent des opérations atomiques uniques de métadonnées sur le répertoire au lieu d’énumérer et de traiter tous les objets qui partagent le préfixe du nom de répertoire.

Dans le passé, l’analytique cloud devait trouver le meilleur compromis entre les performances, la gestion et la sécurité. Data Lake Storage Gen2 traite chacun de ces aspects de plusieurs manières :

Les performances sont optimisées, car vous n’avez pas besoin de copier ou transformer les données avant l’analyse. L’espace de noms hiérarchique améliore considérablement les performances des opérations de gestion de répertoires, et donc les performances générales du travail.
La gestion est plus facile, car vous pouvez organiser et manipuler les fichiers dans des répertoires et des sous-répertoires.
La sécurité est applicable, car vous pouvez définir des autorisations POSIX sur des répertoires ou des fichiers spécifiques.
La rentabilité est réelle, car Data Lake Storage Gen2 repose sur le Stockage Blob Azure dont le coût est faible. Les fonctionnalités supplémentaires réduisent encore le coût total de possession de l’analytique du Big Data sur Azure.
L’extensibilité: Le Stockage Azure est nativement scalable, que vous y accédiez via les interfaces Data Lake Storage Gen2 ou de stockage Blob. Il peut stocker et traiter plusieurs exaoctets de données. Ce volume de stockage est disponible avec un débit mesuré en gigabits par seconde (Gbits/s) et des niveaux élevés d’opérations d’entrée/sortie par seconde (IOPS).