Kedro: Un framework de Python para proyectos de ciencia de datos reproducibles

¿Alguna vez ha pasado sus datos a una lista de funciones y clases sin saber con certeza cómo es la salida?

Puede intentar guardar tus datos y luego verificarlos ante Jupyter Notebook para asegurarte de que el resultado sea el esperado. Este enfoque funciona, pero es engorroso.

def process_data(data):
  pass

def split_data(data):
  pass 

df = process_data(data)
df.to_csv('processed_data.csv')

X_train, X_test, y_train, y_test = split_data(data)

Otro problema común es que es difícil comprender las relaciones entre las funciones cuando se mira un script de Python que contiene tanto el código para crear como para ejecutar funciones.

def split(data):
  pass 

def train(X_train, y_train):
  pass

def predict(X_test, model):
  pass 

def report(predictions):
  pass

X_train, y_train, X_test = split(data)
model = train(X_train, y_train)
predictions = predict(X_test, model)
report(predictions)

Su código parece aún más complejo y difícil de seguir a medida que crece el proyecto.

¿Qué es Kedro?

Kedro es un framework de Python de código abierto para crear código de ciencia de datos modular, mantenible y reproducible.

Tomando prestados los conceptos de las mejores prácticas de la ingeniería de software y aplicándolos al código de aprendizaje automático.

Kedro te permite:

  1. Crear una ciencia de datos a partir de una plantilla sencilla.
  2. Crear una canalización de ciencia de datos.
  3. Cortar una tubería.
  4. Modularizar una tubería.
  5. Configurar tus datos y parámetros a través de un archivo YAML.
  6. Analizar sin esfuerzo las salidas de los nodos en Jupyter Notebook.
  7. Visualizar la canalización.
  8. Crear la documentación para tu proyecto.

En este artículo, analizaré cada una de las características y explicaré cómo pueden ser útiles para los proyectos de ciencia de datos.

Para instalar Kedro, solamente tendrás que instalar:

pip install kedro

Si quieres saber como se crea un proyecto completo utilizando Kedro no dudes en consultar el siguiente artículo de Towards Data Science.

Artículos Relacionados

Pablo, Técnico en Sistemas Informáticos y Redes

Compartir
Publicado por
Pablo, Técnico en Sistemas Informáticos y Redes

Entradas recientes

Juegos Gratis de Epic Games hasta el 20 de noviembre: ScourgeBringer, Songs of Silence y Zero Hour

Si eres un amante de los videojuegos, estás de suerte. Hasta el 20 de noviembre…

8 horas hace

Premio Nobel se une a Bigtechs para trabajar en construir Computadoras Cuánticas personales

La computación cuántica acaba de dar un salto gigante. John M. Martinis, recién galardonado con…

10 horas hace

La biografía de Steve Jobs escrita por el biógrafo Walter Isaacson

La biografía más vendida del cofundador de Apple, Steve Jobs; escrita por uno de los…

2 días hace

Cómo la Inteligencia Artificial está Revolucionando los Sistemas de Seguridad en el Hogar

Hubo un tiempo en el que la “seguridad en el hogar” significaba confiar en un…

2 días hace

Elon Musk se asegura una compensación de 1 billón de dólares con Tesla

Elon Musk vuelve a romper todos los esquemas. Los accionistas de Tesla acaban de aprobar…

2 días hace

GTA 6 se retrasa hasta finales de 2026

Los fans de Grand Theft Auto tendrán que esperar un poco más para volver a…

5 días hace