By Emmanuel LARTIGUE , Consultant
12 pages, FORMAT (PDF), Téléchargement

En 2004, Google publiait un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS. Doug Cutting, qui travaille à cette époque sur le développement de Apache Lucene, un moteur d’indexation et de recherche de texte, s’inspire de GoogleFS pour créer HDFS, un système de fichiers distribué, extensible et portable, développé en Java et versé à la communauté Open Source dans un projet nommé Haddop.

Hadoop est aujourd'hui un des outils les plus pertinents pour répondre aux enjeux posés par le Big Data que sont le stockage et le traitement de données de très grand volume. Toutefois, malgré ces atouts, Hadoop ne remplace pas systématiquement les bases de données en place.

Ce dossier de recherche fait le point sur les avantages et sur les  limites des distributions Hadoop. Il présente l’état du marché en Europe ainsi que ses perspectives d’évolution. En outre, il analyse les caractéristiques d’une solution Hadoop et de ses principaux composants, et liste les critères de choix permettant aux entreprise de sélectionner la distribution Hadoop la mieux adaptée à leurs besoins.

SOMMAIRE

- INTRODUCTION
- APPORTS ET LIMITES DES DISTRIBUTIONS HADOOP
- HADOOP COMME SUPPORT DES TRAITEMENTS BIG DATA
- L'ÉCOSYSTÈME HADOOP
- CRITÈRES D'ÉVALUATION

Les objectifs

Nos dossiers de recherche présentent en quelques pages l’analyse d’une tendance (buzz ou réalité ?) et de son impact sur le SI. Elles décryptent un concept ou l’apport d’une technologie, comparent différentes approches ou méthodologie, dressent la typologie d’une offre produit, proposent des best practices, listent des recommandations en signalant les pièges à éviter.

Ce dossier fait partie de notre outil d’accompagnement pour les DSI : le Pack Executive