Dossier de recherche - BIG DATA - Les distributions Hadoop : apports, marché et critères de choix

En 2004, Google publiait un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS. Doug Cutting, qui travaille à cette époque sur le développement de Apache Lucene, un moteur d’indexation et de recherche de texte, s’inspire de GoogleFS pour créer HDFS, un système de fichiers distribué, extensible et portable, développé en Java et versé à la communauté Open Source dans un projet nommé Haddop.

Hadoop est aujourd'hui un des outils les plus pertinents pour répondre aux enjeux posés par le Big Data que sont le stockage et le traitement de données de très grand volume. Toutefois, malgré ces atouts, Hadoop ne remplace pas systématiquement les bases de données en place.

Ce dossier de recherche fait le point sur les avantages et sur les  limites des distributions Hadoop. Il présente l’état du marché en Europe ainsi que ses perspectives d’évolution. En outre, il analyse les caractéristiques d’une solution Hadoop et de ses principaux composants, et liste les critères de choix permettant aux entreprise de sélectionner la distribution Hadoop la mieux adaptée à leurs besoins.

SOMMAIRE

- INTRODUCTION
- APPORTS ET LIMITES DES DISTRIBUTIONS HADOOP
- HADOOP COMME SUPPORT DES TRAITEMENTS BIG DATA
- L'ÉCOSYSTÈME HADOOP
- CRITÈRES D'ÉVALUATION