Pandas es la herramienta esencial para el análisis de datos en Python. Con ella puedes manejar, limpiar, transformar y visualizar información de forma sencilla y profesional.
Si estás comenzando o quieres fortalecer tus habilidades, esta guía práctica te mostrará cómo hacerlo paso a paso.
Un DataFrame de pandas es como una hoja de cálculo de Excel o una tabla SQL, pero dentro de Python. Está formado por filas y columnas, donde cada columna puede contener números, texto o fechas.
Para instalar pandas, basta con ejecutar:
pip install pandas
import pandas as pd
import numpy as np
x = np.linspace(-10, 10)
y = 2*x + 5
df = pd.DataFrame({'x': x, 'y': y})
print(df.head())
Con head() puedes ver las primeras filas del conjunto de datos, mientras que con tail() observas las últimas.
También puedes filtrar filas específicas fácilmente:
print(df[1:3])
Una de las mayores ventajas de pandas es su compatibilidad con múltiples formatos de datos. Puedes cargar fácilmente archivos de Excel, CSV o incluso desde el portapapeles:
df = pd.read_excel('/ruta/del/archivo.xls')
df = pd.read_csv('/ruta/del/archivo.csv')
df = pd.read_clipboard()
Antes de analizar, conviene entender la estructura de tu DataFrame:
print(df.columns) # Ver nombres de columnas
print(df.describe()) # Estadísticas descriptivas
Para una columna específica:
print(df['Edad'].describe())
print(df['Edad'].mean())
print(df['Edad'].median())
Estas funciones te permiten obtener promedios, medianas y rangos en segundos.
Puedes acceder a una columna individual con:
nombres = df['Nombre']
O seleccionar varias columnas a la vez:
print(df[['Nombre', 'Edad']])
Esto es muy útil cuando solo necesitas ciertas variables para un análisis o visualización.
Si vienes del mundo de las bases de datos, te encantará saber que pandas permite consultas tipo SQL:
print(df[df['Edad'] > 30])
# Equivalente SQL: SELECT * FROM df WHERE Edad > 30
Agregar o modificar columnas es muy intuitivo:
df['x2'] = df['x'] ** 2 # Crear una nueva columna
df = df.drop('x2', axis=1) # Eliminar una columna
df['suma'] = df['x'] + df['y'] # Operaciones matemáticas directas
Con esto puedes crear variables derivadas, ajustar cálculos o limpiar tu dataset fácilmente.
Para contar valores únicos en una columna:
conteo = df['Ciudad'].value_counts()
Puedes renombrar valores para mayor claridad:
conteo = conteo.rename({'S': 'Sur', 'C': 'Centro', 'N': 'Norte'})
Y generar una visualización rápida directamente con pandas:
conteo.plot(kind='bar')
Con solo una línea obtienes gráficas claras sin necesidad de configurar librerías externas.
Un DataFrame te permite organizar, explorar y transformar datos con flexibilidad.
En pocos pasos, puedes importar información, analizar tendencias y visualizar resultados, todo dentro de Python.
Dominar pandas es el primer paso hacia el análisis de datos profesional y la ciencia de datos moderna.
La computación cuántica acaba de dar un salto gigante. John M. Martinis, recién galardonado con…
La biografía más vendida del cofundador de Apple, Steve Jobs; escrita por uno de los…
Hubo un tiempo en el que la “seguridad en el hogar” significaba confiar en un…
Elon Musk vuelve a romper todos los esquemas. Los accionistas de Tesla acaban de aprobar…
Los fans de Grand Theft Auto tendrán que esperar un poco más para volver a…
Five Nights at Freddy’s: Into the Pit nos sumerge en un misterioso mundo donde lo…