Data Engineering : Veolia construit un datalake 100% Serverless

Grâce à ses millions de capteurs disséminés dans toutes ses installations, Veolia collecte chaque jour des centaines de gigaoctets de données brutes. Ces données exploitées sous différents aspects permettent à l’entreprise de prédire les pannes et la consommation, détecter les taux anormaux ou encore de procéder aux télérelevés. L’object...

Lire la suite

Kafka, le système de message distribué à haut débit (3/3)

Message Broker permettant de répondre à la problématique de traitement de flux volumineux de données en temps réel, Apache Kafka est utilisé par des sociétés comme LinkedIn, Twitter, Spotify et Netflix. Ce système de publish-suscribe-messaging est rapide, durable et distribué. Après avoir traité de ses principes généraux et de ses avant...

Lire la suite

Kafka, le système de message distribué à haut débit (2/3)

Comme nous l'avons vu dans un article précédent, Kafka est un message broker permettant de répondre à la problématique des traitements de flux de données en temps réel. Aujourd'hui, nous allons voir en détail ce qui fait la force de Kafka et ce qui le différencie des autres messages brokers. Un système partitionné mais durable Kafka e...

Lire la suite

Kafka, le système de message distribué à haut débit (1/3)

L'évolution rapide du trafic sur Internet (élargissement, complexité, vitesse, etc.) a multiplié les problématiques concernant le trafic de données, et notamment le traitement des flux de données en temps réel, comme les messages, logs, ou vidéos. Comment traiter en temps réel des entrées de près de 13 millions de messages par seconde ?...

Lire la suite