bg banner
fond

Big Data: Teaching Old Elephants New Tricks?

En quelques années seulement, le Big Data a profondément transformé le marché des bases de données. Pour preuve, la course effrénée aux acquisitions qui a récemment poussé Oracle à acheter Endeca, H.P. à débourser plusieurs centaines de millions de dollars pour Vertica, ou encore I.B.M. à acquérir Vivisimo.

Pourquoi un tel bouleversement technologique? Les raisons sont bien sûr multiples, mais sont pour la plupart ancrées dans le modèle de stockage obsolète des bases de données relationnelles classiques (modèle dit n-ary ou horizontal qui stocke les informations sous forme de tuples sur le disque) et sur leur modèle transactionnel (ACID) qui sont tous deux aux antipodes des requêtes analytiques verticales et non-transactionnelles du Big Data.

Transformer un système de bases de données classique, tel PostgeSQL, en moteur analytique relève donc d’une tâche quasi-herculéenne[1], et a du coup propulsé une première génération de systèmes Big Data, comme hadoop, sur le devant de la scène. Mais qu’en est-il de l’évolution de cette première vague de systèmes, basés sur des primitives simplistes et sur un modèle de batch processing rigide? Survivront-ils à la déferlante de nouveaux systèmes Big Data plus flexibles, offrant des fonctions de streaming ou le support de requêtes ad-hoc ?

Deux camps s’affrontent actuellement sur ce front. Les adeptes du full-hadoops’accrochent dur comme fer au mammouth du BigData et pensent que la meilleure solution consiste à faire évoluer itérativement le modèle hadoop / MapReduce vers des modèles plus flexibles, en dé-corrélant par exemple certains de ses sous-systèmes principaux (e.g., en séparant la planification des tâches du management des ressources, comme dans la nouvelle version NextGen MapReduce du système). Le second camp explore quant à lui de nouvelles architectures, suivant en ce sens les projets post-MapReduce de Google (i.e., Percolator, Dremel ou Pregel). Le numéro un des solutions hadoop pour entreprise, Cloudera, vient d’ailleurs de créer la surprise à ce niveau en dévoilant Impala, un système Big Data open-source compatible avec hadoop mais basé sur des techniques de gestion des données empruntées aux systèmes de bases de données... relationnels. Les requêtes déclaratives, algorithmes de jointures et autres index secondaires signent donc un retour triomphant, complétant ainsi un premier cycle de produits pour le Big Data. Vivement la suite.

Philippe Cudré-Mauroux
Président du GITI



[1] cf. Daniel J. Abadi, Samuel Madden, Nabil Hachem: Column-stores vs. row-stores: how different are they really? SIGMOD Conference 2008: 967-980.

 

Devenir Membre du GITI ?

Nos Partenaires

  • ceec
  • swissmedialogotop
  • logo-uts
  • logo he arc
  • ictswitzerland logo member neu
  • ict academy
  • image