Il existe aujourd’hui dans la market place d’Azure deux générations de Data Lake, Azure Data Lake Storage Gen1 et Azure Data Lake Storage Gen2.
Azure Data Lake Storage Gen1 est un référentiel d’entreprise à très grande échelle pour les charges de travail d’analyse du Big Data. Azure Data Lake vous permet de capturer les données de toute taille, de tout type et à toute vitesse d’ingestion dans un emplacement unique en vue d’une analyse opérationnelle et exploratoire.
Data Lake Storage Gen1 est conçu pour permettre l’analyse des données stockées et met l’accent sur les performances des scénarios d’analyse des données. Data Lake Storage Gen1 intègre toutes les capacités de qualité professionnelle requises en matière de sécurité, de facilité de gestion, d’extensibilité, de fiabilité et de disponibilité.
Principales fonctionnalités de Data Lake Storage Gen1
Conçu pour Hadoop
Data Lake Storage Gen1 est un système de fichiers Apache Hadoop compatible avec HDFS (Hadoop Distributed File System) et fonctionnant avec l’écosystème Hadoop. Vous pouvez facilement analyser les données stockées dans Data Lake Storage Gen1 avec les infrastructures d’analyse Hadoop, comme MapReduce ou Hive. Vous pouvez approvisionner et configurer les clusters Azure HDInsight pour accéder directement aux données stockées dans Data Lake Storage Gen1
Stockage illimité, fichiers de l’ordre du pétaoctet
Data Lake Storage Gen1 offre un stockage illimité et peut stocker une grande variété de données à des fins d’analyse. Il n’impose aucune limite de taille de compte, de taille de fichier ou de quantité de données stockées dans un Data Lake. La taille des fichiers individuels peut varier d’un kilooctet à plusieurs pétaoctets.
Performances optimisées pour l'analyse du Big Data
Data Lake Storage Gen1 est conçu pour faire fonctionner des systèmes d’analyse à grande échelle, nécessitant un débit élevé pour interroger et analyser de grands volumes de données. Le lac de données répartit les différentes parties des fichiers sur plusieurs serveurs de stockage distincts. Cela améliore le débit de lecture lors de la lecture du fichier en parallèle de l’analyse de données.
Service adapté aux entreprises : sécurisé et hautement disponible
Data Lake Storage Gen1 offre une fiabilité et une disponibilité aux normes industrielles. Vos données sont stockées durablement en créant des copies redondantes pour vous prémunir contre toute défaillance imprévue.
Toutes les données
Data Lake Storage Gen1 peut stocker des données dans leur format natif, sans nécessiter de transformations préalables. Data Lake Storage Gen1 ne requiert pas la définition d’un schéma avant le chargement des données, laissant ainsi à l’infrastructure d’analyse individuelle le soin d’interpréter les données et de définir un schéma au moment de l’analyse.
Sécurisation des données
Data Lake Storage Gen1 utilise Azure Active Directory pour l’authentification et les listes de contrôle d’accès pour gérer l’accès à vos données.
- Authentification : Grâce à son intégration avec AAD, Data Lake Storage Gen1 tire parti de toutes les fonctionnalités d’Azure AD, notamment l’authentification multi facteur, l’accès conditionnel, le contrôle d’accès en fonction du rôle, l’analyse d’utilisation des applications, la surveillance de la sécurité et les alertes.
- Contrôle d’accès : Data Lake Storage Gen1 vous permet de donner des droits aux niveaux de l’arborescence des dossiers du Data Lake.
- Chiffrement : Data Lake Storage Gen1 assure également le chiffrement des données stockées dans le compte. Vous spécifiez les paramètres de chiffrement lors de la création d’un compte Data Lake Storage Gen1