¿Qué es SAM 2? Introducción a Meta Segment Anything Model

Meta ha lanzado SAM 2, un nuevo modelo de inteligencia artificial para la segmentación de objetos en imágenes y vídeos. Este modelo, distribuido bajo una licencia Apache 2.0, permite a cualquiera utilizarlo para desarrollar nuevas experiencias.

Además, Meta está compartiendo SA-V (el conjunto de datos utilizado para entrenar SAM 2) bajo una licencia Creative Commons BY 4.0. También han lanzado una demostración web para que todos puedan probar el modelo en acción.

¿Qué es SAM 2?

La segmentación de objetos consiste en identificar los píxeles de una imagen que corresponden a un objeto específico, una tarea crucial en la visión artificial.

El modelo anterior, SAM, ya revolucionó esta área al facilitar su aplicación a diversos usos sin necesidad de datos personalizados ni configuraciones complejas.

SAM 2 avanza aún más, permitiendo una segmentación de objetos en tiempo real tanto en imágenes como en vídeos, lo que lo hace muy eficiente y preciso.

Además, SAM 2 es capaz de segmentar cualquier objeto en cualquier contenido visual sin haber sido entrenado específicamente para ello, un proceso conocido como “generalización de toma cero”.

Antes de SAM, desarrollar modelos precisos para la segmentación de objetos requería expertos técnicos y grandes volúmenes de datos. SAM simplificó este proceso, haciéndolo accesible para una amplia variedad de aplicaciones.

Desde su lanzamiento, ha sido utilizado en diversas disciplinas, incluyendo la ciencia, la medicina y la tecnología.

Por ejemplo, se ha implementado en Instagram para funciones de edición de fotos, en el análisis de imágenes de sonar para el estudio de los arrecifes de coral, y en la detección de cáncer de piel mediante el análisis de imágenes celulares.

Mark Zuckerberg destacó recientemente el potencial de la inteligencia artificial de código abierto para mejorar la vida humana, fomentar la creatividad y la productividad, además de impulsar la investigación científica y médica. Con SAM 2, Meta espera abrir nuevas y emocionantes posibilidades en estos campos.

Desafíos y desarrollo de SAM 2 para la segmentación de vídeo

Meta desarrolló SAM 2, un modelo de inteligencia artificial, para abordar la necesidad de segmentación precisa de objetos en vídeos, un requisito esencial en aplicaciones como realidad mixta, robótica, vehículos autónomos y edición de vídeo.

Mientras que las imágenes fijas ofrecen una visión estática de los objetos, los vídeos capturan el dinamismo del mundo real, donde los segmentos visuales pueden moverse de manera compleja.

La transición de segmentar objetos en imágenes a hacerlo en vídeos presenta varios desafíos adicionales.

En los vídeos, los objetos pueden moverse, deformarse, ser ocluidos, o estar sujetos a cambios de iluminación y otros factores que varían de un fotograma a otro. Además, los vídeos suelen tener una calidad inferior debido al movimiento de la cámara, el desenfoque y la menor resolución.

Estos factores complican la segmentación precisa, ya que el modelo debe ser capaz de recordar y rastrear los objetos a través del tiempo.

Para superar estos obstáculos, SAM 2 fue diseñado como un modelo unificado que maneja tanto imágenes como vídeos, diferenciándose solo en que para los vídeos se apoya en la memoria para retener información de fotogramas anteriores y segmentar correctamente los objetos a lo largo del tiempo.

El desarrollo de SAM 2 incluyó la creación de una nueva tarea de segmentación visual programable y un conjunto de datos específico para vídeo, denominado SA-V.

Este conjunto de datos es significativamente más grande que cualquier otro existente, permitiendo entrenar a SAM 2 con una amplia variedad de ejemplos.

Como resultado, SAM 2 ha logrado un rendimiento de vanguardia en la segmentación de vídeo, superando las capacidades anteriores y abordando con éxito los complejos desafíos presentados por los datos de vídeo.