En 2016, Mark Zuckerberg presentó detalles en la conferencia anual de desarrolladores de Facebook sobre su búsqueda para lanzar IA que es mejor para reconocer imágenes que las personas. Estos algoritmos de procesamiento de imágenes podrían usarse para todo, desde narrar imágenes para personas con discapacidad visual hasta evitar accidentes automovilísticos y etiquetado automático de imágenes. Estas son solo algunas de las aplicaciones casi infinitas de las API de procesamiento de imágenes , que se incluyen en el término general de visión por computadora .
A continuación, profundizamos en algunas de las mejores API de reconocimiento de imágenes que existen, que cubren una amplia gama de diferentes aplicaciones y características.
Las 7 mejores API de reconocimiento de imágenes
Las API de reconocimiento de imágenes son parte de un ecosistema más amplio de visión por computadora. La visión por computadora puede cubrir todo, desde el reconocimiento facial hasta la segmentación semántica, que diferencia los objetos de una imagen.
Trabajar con un gran volumen de imágenes deja de ser productivo, o incluso posible, sin algún tipo de reconocimiento de imagen. Ciertas tareas, como la detección de imágenes similares o la identificación de puntos de referencia, son casi imposibles sin herramientas avanzadas de inteligencia artificial.
Por ejemplo, considere el uso de GrubHub de las API de reconocimiento de imágenes para automatizar las imágenes que se agregan a su plataforma. La simple tarea de publicar imágenes de comida en una aplicación es sorprendentemente complicada. Los desarrolladores de GrubHub expresan la necesidad de API de reconocimiento de imágenes para todo, desde la detección de contenido explícito hasta la búsqueda de imágenes similares.
Para el alcance de este artículo, nos centraremos en las API de procesamiento de imágenes, ya que existen muchas. Algunas de las API de procesamiento de imágenes se pueden utilizar para otras aplicaciones de visión artificial. Todavía vale la pena echarles un vistazo si está desarrollando un tipo diferente de herramienta de visión por computadora.
1. API de CloudVision
La API de CloudVision también puede aprovechar las amplias bibliotecas de datos y aprendizaje automático de Google. Eso lo hace ideal para detectar puntos de referencia e identificar objetos en imágenes, que son algunos de los usos más comunes de la API de CloudVision.
También puede acceder a la información de la imagen de diversas formas. Puede devolver descripciones de imágenes, identificación de entidades e imágenes coincidentes. También se puede utilizar para identificar el color predominante de una imagen.
La característica más interesante de la API de CloudVision es su reconocimiento OCR . La API puede detectar texto impreso y escrito a mano desde un archivo de imagen, PDF o TIFF. Puede usarlo para generar documentación directamente a partir de gráficos y notas escritas a mano. Esto por sí solo lo hace digno de investigación.
La única desventaja real de la API de CloudVision de Google es que es un poco cara. Prepárese para pagar si lo va a usar mucho.

La API de Google Cloud Vision identifica correctamente una cinta de casete y enumera las entidades web más probables. Prueba la demostración aquí .
2. Amazon Rekognition
La función Capturar movimiento es una de las primeras funciones destacadas de Recogniktion. La función Capturar movimiento rastrea el movimiento de un objeto a través de un marco. Aunque es muy útil para el procesamiento de videos, vale la pena tenerlo en su kit de herramientas API.
La función Detectar texto en imagen también es digna de mención y probablemente sea más útil para el procesamiento de imágenes estáticas. La API de Rekognition analiza imágenes en busca de texto, evaluando todo, desde números de matrículas hasta nombres de calles y nombres de productos.
Rekognition tiene varios niveles de pago. Ofrece un nivel gratuito , lo que lo hace digno de mención. Los usuarios de Rekognition pueden analizar hasta 1,000 minutos de video; 5000 imágenes; y almacenar hasta 1000 caras cada mes, durante el primer año.
Los precios de Amazon Rekognition también varían según la región. Si va a utilizar más que su servicio gratuito, puede solicitar una cotización a través de la página de precios .

Amazon Rekognition se utiliza para detectar texto dentro de imágenes.
3. Reconocimiento visual de IBM Watson
Viene con varios modelos de detección de objetos previamente entrenados. Estos incluyen el modelo general, que proporciona una clasificación para miles de objetos predefinidos. El modelo explícito detecta contenido inapropiado. El modelo alimentario reconoce los objetos alimenticios en imágenes. El modelo de texto reconoce texto, similar a Amazon Rekognition.

IBM Watson reconoce algunos elementos del plátano, como se ve en esta respuesta JSON. Prueba la demostración aquí .
4. API de procesamiento de imágenes de Microsoft
Microsoft Azure Cloud ofrece una serie de herramientas como parte de sus servicios cognitivos. Es casi una ventanilla única para cualquier tipo de procesamiento de visión por computadora que pueda necesitar.
La API Computer Vision de Microsoft Azure Cloud ofrece varias de las mismas herramientas de reconocimiento de imágenes que las otras API de nuestra lista. También ofrece algunas otras características innovadoras que lo hacen digno de ser incluido en nuestra lista de las mejores API de reconocimiento de imágenes. La definición de las propiedades de la imagen puede evaluar el tono dominante de una imagen y si es en blanco y negro o no. La descripción y categorización del contenido de la imagen describe una imagen como una oración completa, además de categorizar ese contenido.
La API de reconocimiento de imágenes de Microsoft Azure Cloud tiene un precio de acuerdo con la región y la cantidad de transacciones.

La API de procesamiento de imágenes de Microsoft Azure identifica correctamente los "auriculares" con un grado de confianza del 93%. Prueba la demostración aquí .
5. Clarifai
Clarifai tiene una serie de características notables. Su sistema de identificación de moda es uno de los más profundos que existen, pudiendo identificar miles de artículos y accesorios de moda utilizando el modelo informático Fashion. También cuenta con un extenso algoritmo de alimentos, pudiendo analizar más de 1,000 alimentos hasta el nivel de los ingredientes.
Clarifai también es capaz de realizar la mayoría de las funciones básicas de visión por computadora mencionadas en nuestra lista. Puede detectar contenido explícito, identificar celebridades y reconocer rostros. Clarifai también puede determinar el color dominante de una imagen.

Cómo se ve trabajar con la API de Clarifai en curl .
6. Imagga
Imagga se clasifica como una API de gestión de activos digitales. Cuenta con una biblioteca de activos, lo que permite la categorización de activos y la gestión de metadatos. Encontrar activos en la biblioteca es simple gracias a una función de búsqueda / filtro.
También permite informes y análisis. Es comparable a otras API de gestión de activos digitales como Box, Airtable o Canto Digital Asset Management. Sin embargo, Imagga es la nueva API de administración de activos digitales en el bloque, lo que la hace más asequible que varias de las otras opciones que existen.

Imagga identifica un cactus… algo así. Pruebe la demostración de etiquetado automático de Imagga aquí .
7. API de procesamiento de pila de archivos
Si está procesando grandes cantidades de fotos, Filestack Processing API es una buena herramienta para tener en su kit de herramientas.
La API de procesamiento de pila de archivos se puede utilizar para almacenar archivos, comprimir archivos y convertir archivos. También puede integrarse automáticamente con plataformas de intercambio de archivos como Google Drive, Dropbox y Facebook. También puede realizar muchas de las otras tareas que las otras API de procesamiento de imágenes mencionaron en nuestra lista, como detectar contenido inapropiado y reconocimiento de caracteres.
Filestack Processing tiene algunas otras características distintivas que vale la pena señalar. Se puede usar para etiquetar videos y detectar imágenes con derechos de autor. También se puede utilizar para cambiar el tamaño de imágenes, recortar, cambiar el tamaño, comprimir o rotar imágenes.

La API de procesamiento de pilas de archivos está 96% seguro de que esto es un cactus, y tenemos que estar de acuerdo. Pruebe la demostración de Filtrar contenido aquí .
API de reconocimiento de imágenes: pensamientos finales
Como puede ver, hay muchas API de reconocimiento de imágenes diferentes para elegir. Algunos de ellos realizan muchas de las mismas funciones básicas de reconocimiento de imágenes. Sin embargo, cada uno tiene sus propias capacidades únicas.
Para ayudarlo a decidir qué API de reconocimiento de imágenes es adecuada para usted, aquí hay una breve sinopsis de las características de las API que hemos cubierto en este artículo.
- Para obtener una biblioteca extensa de modelos de reconocimiento preconfigurados y reconocimiento de escritura a mano de calidad, considere la API de Google Google CloudVision .
- Para el reconocimiento de imágenes con reconocimiento de celebridades o captura de movimiento, considere Amazon Rekognition .
- Para un potente aprendizaje automático de IBM Watson y un modelo alimentario dedicado, considere IBM Watson Visual Recognition .
- Para características similares más un tono dominante y descripción y categorización de contenido legible por humanos, considere la API de procesamiento de imágenes de Microsoft .
- Para el reconocimiento de imágenes que incluye la moda y la identificación de alimentos, considere Clarifai .
- Para una API más asequible que se centre en una gran cantidad de medios y gestión de activos digitales, y filtros NSFW, considere Imagga .
- Para el filtrado OCR y NSFW, además de funciones adicionales de administración de archivos como carga social y transformación de imágenes, considere la API de procesamiento de Filestack .
Teniendo en cuenta lo visuales que son los humanos y la cantidad de datos visuales que nos rodean en un día determinado, es seguro decir que las API de reconocimiento de imágenes no irán a ninguna parte pronto. El trabajo de la tecnología es hacer que nuestros trabajos sean más eficientes, no crear una variedad interminable de nuevas tareas para llenar nuestros días con un sinfín de tareas.
Las API de reconocimiento de imágenes automatizan muchas de las tareas relacionadas con el trabajo con datos y medios visuales, por lo que podemos centrarnos en crear nuestras aplicaciones, desarrollar nuestros negocios y encontrar contenido visual excepcional sin convertirnos en secretarios de archivos glorificados.
API | CARACTERISTICAS |
---|---|
API de Cloud Vision | 1. Reconocimiento de objetos 2. Detección de contenido explícito 3. Detección de puntos de referencia 4. Reconocimiento de objetos 5. Descripciones de imágenes de retorno 6. Identificación de entidades 7. Coincidencia de imágenes 8. Reconocimiento de OCR |
Amazon Rekognition | 1. Reconocimiento de objetos 2. Detección de contenido explícito 3. Reconocimiento de celebridades 4. Captura de movimiento 5. Detecta texto en imagen |
Reconocimiento visual de IBM Watson | 1. Compatible con aprendizaje automático 2. Varios modelos de aprendizaje automático de identificación de objetos precargados |
API de reconocimiento de imágenes de Microsoft | 1. Detección de rostros 2. Detección de puntos de referencia 3. Detección de celebridades 4. Reconocimiento de texto 5. Extracción de información de documentos 6. Descripción de las propiedades de la imagen 7. Descripción y categorización del contenido de la imagen |
Imagga | 1. Etiquetado automatizado de imágenes 2. Categorización automatizada de imágenes 3. Crea análisis |
API de procesamiento de pila de archivos | 1. Almacena archivos 2. Comprime archivos 3. Convierte archivos 4. Se integra con los servicios para compartir archivos 5. Detección de contenido explícito 6. Etiquetado de videos 7. Edición de imágenes |
Clarifai | 1. Etiquetado automático de imágenes 2. Detección de rostros 3. Detección de celebridades 4. Análisis demográfico 5. Moderación |
¿Le gustaría agregar su herramienta a esta lista? Por favor comente a continuación . Nuestra política es crear una lista de “Menciones de honor” para otras herramientas que no cubrimos en profundidad.
0 Comentarios
Dejanos tu comentario para seguir mejorando!