Quelles sont les raisons fonctionnelles pour lesquelles Hadoop ne peut pas être un entrepôt de données ?
Sur plusieurs sites, on peut lire des déclarations selon lesquelles un cluster Hadoop ne remplace pas un entrepôt de données traditionnel. Cependant, je n'arrive pas à trouver les vraies raisons de cette affirmation.
Je suis conscient du fait que, techniquement, certaines choses ne sont pas disponibles/maturées dans Hadoop, mais je cherche vraiment à savoir ce qui suit fonctionnel impact.
Ce que j'ai trouvé jusqu'à présent, y compris les mesures d'atténuation
J'ai trouvé quelques arguments, mais aucun n'est critique au point de déconseiller l'utilisation d'Hadoop comme DWH. En voici une sélection :
- Il n'est pas possible d'effectuer des requêtes ou des rapports ad hoc rapides. Hadoop a tendance à engendrer des frais généraux pour les tâches de map et de reduce.
Toutefois, dans la situation que j'examine, cela ne devrait pas poser de problème puisque les données ne sont disponibles que par le biais de la datamart (ordinaire). En outre, vous pourriez utiliser spark sql si vous vouliez creuser dans certaines tables.
- Vous ne pouvez pas obtenir certains résultats car Hadoop ne supporte pas les procédures stockées.
Dans la situation que j'examine, il n'y a pas beaucoup de procédures stockées (heureusement !) et en utilisant des outils comme R ou Python, vous pouvez vraiment obtenir tous les résultats dont vous avez besoin.
- Vous ne pouvez pas vous remettre d'un désastre car Hadoop ne dispose pas de sauvegardes intégrées.
Toutefois, comme tous les codes sont scriptés et que les données peuvent être déchargées sur une sauvegarde, il devrait être possible de se remettre d'un désastre.
- Vous ne pouvez pas faire de la conformité et de la confidentialité car il n'y a pas de sécurité ni d'archivage des données.
Avec une boîte à outils comme Knox + Ranger + Atlas, c'est possible.
- Il n'est pas facile de construire des requêtes Vous ne pouvez pas construire le flux, mais vous devez écrire du code SQL ou pig.
Il semble qu'il existe plusieurs outils, comme Talend, qui permettent de construire des flux à l'aide d'icônes, comme dans les constructeurs de requêtes classiques.
- Hadoop est plus difficile à maintenir car elle requiert des connaissances spécifiques
C'est vrai, mais dans la situation qui m'intéresse, il y a une bonne dose de connaissances car ils utilisent actuellement une plateforme d'analyse Hadoop.