le projet apache hadoop développe des logiciels open-source pour la programmation informatique distribuée fiable et évolutive. les sous-projets proposés sont principalement destinés à la recherche. hadoop comprend ces sous-projets : - hadoop common : les utilitaires communs qui prennent en charge les autres sous-projets hadoop. - chukwa : un système de collecte de données pour la gestion de grands systèmes distribués. - hbase : une solution de base de données distribuée évolutive qui prend en charge une structure de stockage de données pour les grandes tables. - hdfs : un système de fichiers distribués qui permet d'accéder aux données d'applications à haut débit. - hive : une infrastructure de données qui fournit un résumé des données et des requêtes ad hoc. - mapreduce : un framework pour le traitement distribué de grands ensembles de données sur les clusters de calcul. - pig : un langage de flux de données de haut niveau et un framework pour l'exécution du calcul parallèle. - zookeeper : un service de coordination haute performance pour les applications distribuées.