Makina Blog

Récupérer des données Hadoop avec Python

29/04/2017 | Alex Marandon

Accéder à des données situées sur un cluster Hadoop peut se faire de différentes manières en Python. Voyons ensemble quelques approches courantes.

Accéder à HDFS

Dans un cluster Hadoop, les données sont stockées sur un système de fichier distribué appellé HDFS. L'utilitaire standard pour accéder à ces données en ligne de commande est un programme nommé tout simplement `hdfs`. Voici par exemple comment lister un répertoire avec cet outil:

$ hdfs dfs -ls 'hdfs://mon-cluster/user/cloudera/'

Mais cet outil est écrit en Java, ce qui présente deux inconvénients :

Il faut qu'une JVM soit installée sur le poste du développeur, ce qui n'est pas nécessairement le cas pour un développeur Python.
Le temps de démarrage d'une JVM peut-être assez long, ce qui peut être génant pour un outil en ligne de commande

Pour éviter ces inconvénients, on peut utiliser snakebite, un client HDFS écrit en Python. On l'installe comme n'importe quel package Python :

$ pip install snakebite

On pourra alors lister un répertoire comme ceci :

$ snakebite -n mon-cluster ls /user/cloudera

Snakebite peut aussi s'utiliser en tant que bibliothèque Python :

>>> from snakebite.client import Client
>>> client = Client("mon-cluster", 8020, use_trash=False)
>>> for x in client.ls(["/user/cloudera"]):
...     print(x)
...

Une alternative à cela est de mettre en place le service WebHDFS qui fournit une API REST au dessus de HDFS. Dans ce cas, on accède aux données avec une bibliothèque HTTP classique telle que urllib.request ou bien Requests.

Hive

Hive permet d'accéder aux données du cluster avec une interface de type SQL. Les développeurs Python peuvent utiliser PyHive pour requêter Hive depuis leur langage favori. Ce paquet s'installe avec pip :

$ pip install pyhive

PyHive nous fournit alors une interface conforme à la DB-API, c'est à dire la même API qui sert à accéder à des bases de données relationnelles telles que PostgreSQL ou SQLite.

from pyhive import hive

connection = hive.connect("quickstart.cloudera", username="cloudera",
                          port=10000)
cursor = connection.cursor()
query = "SELECT * FROM my_data WHERE some_field='some value'"
cursor.execute(query)
for row in cursor.fetchall():
    print(row[0], row[1])

Données Avro

Le format Avro est un format de stockage populaire dans le monde Hadoop, notamment pour stocker des séries temporelles. Le package fastavro permet de lire ce format très simplement. Après l'avoir installé avec pip, on peut écrire du code ressemblant à ceci:

import fastavro as avro

with open('my-data-file.avro', 'rb') as fp:
    reader = avro.reader(fp)
    schema = reader.schema

    for record in reader:
        process_record(record)

En conclusion

Comme nous l'avons vu, accéder à des données stockées sur un cluster Hadoop est très facilement réalisable en Python. Pour en apprendre davantage sur l'intégration de Python avec Hadoop on pourra consulter le guide gratuit publié par O'Reilly : Hadoop with Python. Pour expérimenter avec Hadoop, Cloudera fournit une image Docker qui permet de démarrer un cluster Hadoop de test assez facilement.

Actualités en lien

Déboguer des triggers SQL en cascade – Approche Matplotlib

SQL

18/02/2025

Dans cet article, je vais partager mon expérience de débogage à l’aide de Matplotlib, un outil de visualisation Python puissant et flexible.

Calculez sur GPU avec Python – Partie 2/3

Data Science

11/02/2025

Dans cette partie, vous apprendrez à utiliser votre GPU avec les librairies CuPy et PyCUDA. Vous commencerez à comprendre dans quelles conditions un GPU est préférable à un CPU.

Calculez sur GPU avec Python – Partie 1/3

Data Science

04/02/2025

Cet article vous présente comment utiliser des GPU avec Python en passant par la présentation du choix du matériel jusqu’à sa mise en œuvre avec différentes librairies : Cupy, cuDF, xarray…

Vous avez un projet ?

Makina Blog

Récupérer des données Hadoop avec Python

Accéder à HDFS

Hive

Données Avro

En conclusion

Actualités en lien

Déboguer des triggers SQL en cascade – Approche Matplotlib

Calculez sur GPU avec Python – Partie 2/3

Calculez sur GPU avec Python – Partie 1/3

Inscription à la newsletter

Nous vous avons convaincus

Makina Corpus

Makina Corpus

Makina Corpus & Makina Corpus Territoires

Makina Corpus

Makina Corpus Formation

Makina Blog

Récupérer des données Hadoop avec Python

Accéder à HDFS

Hive

Données Avro

En conclusion

Actualités en lien

Débo­guer des trig­gers SQL en cascade – Approche Matplot­lib

Calcu­­lez sur GPU avec Python – Partie 2/3

Calcu­lez sur GPU avec Python – Partie 1/3

Inscription à la newsletter

Nous vous avons convaincus

Makina Corpus

Makina Corpus

Makina Corpus & Makina Corpus Territoires

Makina Corpus

Makina Corpus Formation

Déboguer des triggers SQL en cascade – Approche Matplotlib

Calculez sur GPU avec Python – Partie 2/3

Calculez sur GPU avec Python – Partie 1/3