Problemas de Red Comunes que Todo Ingeniero DevOps Encuentra (y Cómo Solucionarlos)

Los problemas de red raramente se anuncian claramente. Un despliegue falla, un pod no alcanza su base de datos o un servicio responde intermitentemente. Los logs parecen limpios, pero algo está mal.

La experiencia enseña que cuando todo parece bien, la red suele ser el culpable.

Este artículo aborda los problemas más frecuentes de red en entornos Linux y cómo investigarlos, diagnosticarlos y solucionarlos usando comandos reales.

Paso 1: Verificar conectividad básica

Antes de mirar la aplicación, comprueba la conectividad de la máquina:

ping -c 4 8.8.8.8       # Prueba la conectividad IP directa
ping -c 4 example.com   # Prueba resolución DNS

Interpretación:

  • Éxito en IP, fallo en dominio → Problema DNS.
  • Falla en ambos → Problema de routing o firewall.

Comandos adicionales para verificar rutas:

ip route show          # Ver rutas activas
traceroute 8.8.8.8     # Rastrear camino de los paquetes

Paso 2: Problemas de routing

Routing asimétrico y tablas mal configuradas causan pérdidas de paquetes. Comandos clave:

ip route               # Rutas activas
ip route get 1.1.1.1   # Ruta hacia un destino específico
ip rule show           # Reglas de policy routing

Solución típica para rutas múltiples:

ip route add default via 192.168.10.1 dev eth1 table 10
ip rule add from 192.168.10.0/24 table 10

Verificar reverse path filtering:

cat /proc/sys/net/ipv4/conf/all/rp_filter

Paso 3: Problemas de DNS

DNS es el sospechoso eterno. Para diagnosticar:

cat /etc/resolv.conf         # Servidores configurados
resolvectl status            # DNS activo en systemd-resolved
dig example.com              # Resolver con servidor predeterminado
dig @8.8.8.8 example.com     # Resolver con servidor público

Otros problemas comunes:

  • Contenedores con /etc/resolv.conf desactualizado.
  • Conflictos con nsswitch.conf.
  • Preferencia inesperada de IPv6 → ajustar /etc/gai.conf.

Paso 4: MTU y fragmentación

Problemas de MTU causan paquetes perdidos y conexiones intermitentes:

ip link show eth0                # Ver MTU de interfaz
ping -M do -s 1472 8.8.8.8      # Test MTU con flag "do not fragment"
ip link set dev eth0 mtu 1450    # Ajustar MTU

En redes overlay (Flannel, Calico, VXLAN) ajustar MTU es crítico para evitar degradación de rendimiento.


Paso 5: Redes overlay y túneles

Problemas frecuentes:

  • “Ghost packets”: tráfico que no llega al destino.
  • Puertos de encapsulación bloqueados (VXLAN 4789, WireGuard 51820).

Verificación:

ip link show type vxlan
ping <remote_host_ip>
tcpdump -i eth0 udp port 4789
wg show                        # Para WireGuard

Paso 6: Firewalls y conntrack

Problemas silenciosos de firewall y tablas de conexión:

cat /proc/sys/net/netfilter/nf_conntrack_count
cat /proc/sys/net/netfilter/nf_conntrack_max
sysctl -w net.netfilter.nf_conntrack_max=262144
sysctl -w net.netfilter.nf_conntrack_tcp_timeout_established=3600
nft list table nat

Consejo: En entornos de alto tráfico, usar sets y maps en nftables mejora rendimiento y reduce presión sobre conntrack.


Lecciones clave

  1. Verificar primero el host local.
  2. Diagnosticar capa por capa: ping, dig, traceroute, tcpdump, nft.
  3. Documentar hipótesis antes de probar.
  4. Monitorear lo invisible: conntrack, colas y caídas de interfaces.
  5. Comprender el routing real de Linux y las políticas de red.

Conclusión

El troubleshooting de redes Linux no es memorizar comandos, sino construir modelos mentales del flujo de paquetes y cómo el kernel interpreta la red. Desde DNS y routing hasta overlays y conntrack, conocer estos patrones permite:

  • Diagnosticar incidentes rápidamente.
  • Reducir tiempos de downtime.
  • Diseñar infraestructura más resiliente.

Para profundizar, estudiar Linux Networking at Scale ofrece experiencia avanzada en policy routing, nftables, overlays y QoS.