Header Ads Widget

Ticker

6/recent/ticker-posts

Las 5 mejores API de Speech-to-Text

 


La búsqueda por voz se está volviendo cada vez más frecuente a medida que pasan los años, ya que cada vez más usuarios acceden a Internet a través de dispositivos móviles y con la ayuda de asistentes de voz como Alexa. El 41% de los adultos informa que usa la búsqueda por voz a diario.

La búsqueda por voz también se está convirtiendo en un componente esencial del comercio electrónico. El 50% de los consumidores informa haber realizado una compra mediante la búsqueda por voz en el último año. Descuidar la voz es como dejar dinero sobre la mesa, sin mencionar la posibilidad de alienar a tu audiencia.

La voz también es muy útil para segmentar su audiencia. La búsqueda por voz es la más utilizada por consumidores adinerados y altamente educados . Potencialmente, podría integrar la voz en una campaña de marketing digital, como parte de su embudo de marketing, segmentando a su audiencia de todas las formas útiles.

El hecho de que la búsqueda por voz pueda alertarle sobre los miembros de su audiencia con dinero para gastar y voluntad de gastar es razón suficiente para investigar la voz e integrarla en su flujo de trabajo existente.

Pero, ¿cómo integra el reconocimiento de voz en su sitio web o aplicación? ¿No es ese el dominio de empresas súper ricas con grandes inversiones en aprendizaje automático y realidad virtual?

No necesariamente.

Existen numerosas API web de voz a texto que puede utilizar para impulsar su aplicación o sitio web. Vamos a profundizar en algunas de nuestras API favoritas y más útiles para la búsqueda por voz.

Las 5 mejores API para Speech-to-Text

Clasificar las soluciones tecnológicas de mejor a peor siempre será subjetivo. Lo que constituye la mejor API dependerá en gran medida de para qué utilizará el reconocimiento de voz.

Segmentaremos nuestras API favoritas de voz a texto por aplicación, como una forma de ayudarlo a determinar qué API se adapta mejor a sus necesidades particulares.

API de conversión de voz a texto para búsquedas breves en línea

Las frases que la gente suele usar para buscar cosas en línea tienden a ser breves, dulces y al grano. Las API de búsqueda por voz para aplicaciones en línea no necesitarán ser tan completas ni tener tantas consideraciones técnicas, como gramática o sintaxis, para considerar. Esto significa que estas API tienden a ser más ligeras, más rápidas y más rápidas de cargar.

1. Google Speech-to-Text

discurso-api-lead

Teniendo en cuenta que Google es esencialmente el sistema nervioso de Internet en este momento, no sorprende que su API Speech-To-Text se encuentre entre las API más populares y más poderosas disponibles para los desarrolladores.

Google Speech-To-Text se presentó en 2018 , solo una semana después de su actualización de texto a voz. La API Speech-To-Text de Google hace algunas afirmaciones audaces, reduciendo los errores de palabras en un 54% en una prueba tras otra. En ciertas áreas, los resultados son aún más alentadores.

Una de las razones de la impresionante precisión de las API es la capacidad de seleccionar entre diferentes modelos de aprendizaje automático , dependiendo de para qué se utilice la aplicación. Esto también convierte a Google Speech-To-Text en una solución adecuada para aplicaciones distintas de las búsquedas web breves. También se puede configurar para audio de llamadas telefónicas o videos. También hay una cuarta configuración, que Google recomienda usar como predeterminada.

La API Speech-To-Text también presenta una actualización impresionante para las opciones de puntuación extendidas Está diseñado para realizar transcripciones más útiles, con menos oraciones continuas o errores de puntuación.

La actualización más reciente también permite a los desarrolladores etiquetar su audio o video transcrito con metadatos básicos Sin embargo, esto es más para el beneficio de la empresa que para los desarrolladores, ya que permitirá a Google decidir qué funciones son más útiles para los programadores.

Sin embargo, la API de Google Speech-To-Text no es gratuita. Es gratis para el reconocimiento de voz para audio de menos de 60 minutos. Para transcripciones de audio más largas, cuesta $ 0.006 por 15 segundos.

Para las transcripciones de video, cuesta $ 0.006 por 15 segundos para videos de hasta 60 minutos de duración. Para videos de más de una hora, cuesta $ 0.012 por cada 15 segundos. Asegúrese de tenerlo en cuenta en sus modelos de precios al desarrollar aplicaciones y servicios web.

Pros
  • Reconoce más de 120 idiomas
  • Múltiples modelos de aprendizaje automático para una mayor precisión
  • Reconocimiento automático de idioma
  • Transcripción de texto
  • Reconocimiento de sustantivo adecuado
  • Privacidad de datos
  • Cancelación de ruido para audio de llamadas telefónicas y video
Contras
  • Cuesta dinero
  • Constructor de vocabulario personalizado limitado

2. Servicios cognitivos de Microsoft

Microsoft también es un actor importante en el mundo de las API de reconocimiento de voz. Sin embargo, Microsoft Cognitive Services es más que otra API de reconocimiento de voz. También forma parte de los servicios de confianza de Microsoft que ofrecen opciones de seguridad incomparables para los desarrolladores que buscan los datos más seguros para sus aplicaciones.

Lo principal que separa la API de voz a texto de Microsoft Cognitive Services  es la función de reconocimiento de orador . Esta es la versión auditiva de software de seguridad como el reconocimiento facial . Piense en ello como un escaneo de retina para el sonido de la voz del usuario. Lo hace increíblemente fácil para diferentes niveles de usuarios.

Esta misma capacidad de reconocimiento de voz permite que el software se adapte a los estilos y patrones de voz específicos del usuario. También ofrece más opciones de vocabulario personalizado que Google, como beneficio adicional.

Más allá de eso, la API de reconocimiento de voz de Microsoft Cognitive Service tiene muchos de los mismos beneficios que otras API de voz. Puede realizar transcripciones en tiempo real , así como convertir texto en voz. Por lo tanto, Microsoft Cognitive Services puede cubrir la mayoría de sus necesidades basadas en texto y voz. También se puede usar para el análisis de registros del centro de llamadas, si tiene grandes cantidades de audio que deben analizarse.

Teniendo en cuenta la amplia popularidad de los productos y servicios de Microsoft, Microsoft Cognitive Services está creciendo más rápido que muchas de las otras API de nuestra lista. Si está buscando unirse a una comunidad dinámica y activa de desarrolladores, Microsoft Cognitive Services podría ser una buena opción.

Pros
  • Seguridad de datos mejorada mediante algoritmos de reconocimiento de voz
  • Transcripción en tiempo real
  • Traducción en tiempo real
  • Vocabulario personalizable
  • Capacidades de texto a voz para patrones de voz naturales
Contras
  • Restricciones integradas debido a que la API se crea para fines generales
  • Utiliza microservicios, que pueden ser útiles para resolver problemas individuales, pero se quedan cortos para problemas más grandes

3. Dialogflow (anteriormente API.AI, Speaktoit)

Dialogflow también es propiedad de Google. La principal ventaja sobre otras API de voz es la capacidad de Dialogflow de tener en cuenta el contexto al analizar el habla, lo que hace que las transcripciones sean más precisas. También permite a los desarrolladores personalizar sus comandos de voz para diferentes dispositivos, como dispositivos inteligentes, teléfonos, dispositivos portátiles, automóviles y altavoces inteligentes.

La encarnación anterior de Dialogflow, Api.ai, se usó para impulsar la aplicación Assistant, uno de los primeros asistentes virtuales basados ​​en voz, allá por 2014. Desde entonces se suspendió, pero demuestra que Dialogflow ha estado en IA / aprendizaje automático / reconocimiento de voz. juego durante más tiempo que la mayoría.

La API de reconocimiento de voz de Dialogflow también tiene una serie de análisis integrados en la plataforma. Puede medir la participación del usuario o las métricas de la sesión, así como los patrones de uso o los problemas de latencia. Esto seguramente será útil cuando los inversores, los equipos de ventas y marketing y los desarrolladores estén en la misma página.

Sin embargo, actualmente Dialogflow solo admite 14 idiomas. Esto lo hace menos útil para software multilingüe que Google Speech-To-Text o Microsoft Cognitive Services.

Pros
  • Gratis
  • Fácil de usar
  • Fácil de configurar
  • Se integra con una amplia variedad de software
  • Se integra fácilmente con otros servicios web
  • Puede integrarse con dispositivos que no son de Google como Alexa de Amazon
Contras
  • No puede manejar funciones matemáticas
  • No se puede hacer coincidir la intención con frases comunes
  • No se pueden crear enlaces en los que se puede hacer clic en el cuadro de texto
  • No se puede buscar entre intents
  • Solo puede proporcionar un webhook

API de reconocimiento de voz para procesamiento de formato largo y sin conexión

4. IBM Watson

No es ningún secreto que estamos generando, procesando y analizando mayores cantidades de datos que en cualquier otro momento de la historia. No todos esos datos estarán limpios y bien organizados, especialmente si está diseñando o desarrollando una API. Como desarrolladores de API, nuestro trabajo es asegurarnos de que los datos estén organizados y sean utilizables.

IBM Watson es quizás una de las expresiones más puras de la IA como asistente virtual . IBM Watson es muy experto en procesar patrones de lenguaje natural , que es uno de los santos griales de los desarrolladores de inteligencia artificial y aprendizaje automático.

La API I BM Watson Speech to Text es particularmente sólida para comprender el contexto, y se basa en la generación y evaluación de hipótesis en su formulación de respuesta. También es capaz de diferenciar entre varios hablantes, lo que lo hace adecuado para la mayoría de las tareas de transcripción. Incluso puede establecer una serie de filtros, eliminando blasfemias, agregando confianza en las palabras y opciones de formato para aplicaciones de voz a texto.

IBM Watson ofrece tres interfaces diferentes para desarrolladores. Hay una interfaz WebSocket , una interfaz HTTP REST y una interfaz HTTP asincrónica .

IBM Watson es fácil de configurar e implementar, lo que lo convierte en una opción maravillosa para aquellos que buscan una API de Speech-To-Text pero no son completamente competentes técnicamente. IBM proporciona una  amplia documentación y uno de los manuales de referencia de API más completos del mercado. Si está buscando una API de voz a texto que sea fácil de configurar y comenzar a usar de inmediato, IBM Watson podría ser una buena opción.

Por supuesto, IBM Watson es más que una API de voz a texto. Es una de las bibliotecas de aprendizaje automático más desarrolladas que existen. Continúa aprendiendo y evolucionando, cuanto más lo usas. Esto lo hace adecuado para prevenir cortes e interrupciones , así como para acelerar la investigación y los datos . La mayoría de las aplicaciones que se beneficiarían de la estructuración de datos no estructurados se beneficiarán del uso de la API de IBM Watson.

Como una de las API de aprendizaje automático mejor desarrolladas que existen, IBM Watson no es barato. Sin embargo, su puesta en marcha es rápida, lo que significa que no perderá dinero en tiempo de inactividad o en tener que contratar a varios desarrolladores solo para comenzar. La tranquilidad de una API Speech-To-Text casi plug-and-play puede valer la pena solo por el costo de admisión.

Pros
  • Procesa datos no estructurados
  • Ayuda a los humanos en lugar de reemplazarlos
  • Ayuda a superar las limitaciones humanas
  • Mejora la productividad entregando datos relevantes
  • Mejora la experiencia del usuario
  • Puede procesar grandes cantidades de datos
  • Fácil de configurar y empezar
Contras
  • No admite datos estructurados directamente
  • Caro cambiar a
  • Requiere mantenimiento
  • Solo admite un número limitado de idiomas
  • Lleva tiempo implementarlo completamente
  • Requiere educación y capacitación para aprovechar al máximo sus recursos

5. Hablamática

Speechmatics ofrece una API basada en la nube fácil de usar para servicios de transcripción automática. Su principal reclamo a la fama es que admite una amplia gama de formatos de archivo, lo que significa que se puede utilizar para el procesamiento de archivos sin conexión.

hablamáticas

También admite una variedad de idiomas realmente impresionante, por lo que no se limitará al inglés. También se ha descubierto que es más precisa que la mayoría de las otras API de reconocimiento de voz que existen, por lo que no tendrá que revisar sus transcripciones tan extensamente, para que pueda concentrarse en otras cosas.

La API de Speechmatics también es muy hábil en el reconocimiento de hablantes . Procesa una impresionante variedad de diferentes variables, desde valores de confianza hasta indicaciones de tiempo e indicaciones del hablante. Esto hace que Speechmatics sea útil para aplicaciones de aprendizaje automático , ya que llega a conocer a un orador más a fondo con cada iteración.

Se ha descubierto que Speechmatics es una de las API de transcripción automática más rápidas y fiables disponibles para los desarrolladores. También admite nueve idiomas, incluidas diferentes variantes en inglés, incluido el inglés británico y australiano.

Sin embargo, hay un par de inconvenientes en la API de Speechmatics, aunque ninguno de ellos es lo suficientemente importante como para ser un factor decisivo. Primero y más notable, no hay una interfaz de aplicación. Si va a utilizar los servicios de transcripción, deberá cargar el audio en el sitio web.

En segundo lugar, cada consulta cuesta dinero. Cuesta .06 GBP por 1 minuto de audio procesado. Si va a utilizar la API de Speechmatics para cualquier tipo de aplicación comercial o servicio web, asegúrese de tenerlo en cuenta al configurar su procesamiento. Ofrecen un descuento por más de 1000 minutos de audio procesado. Quizás pueda calcular algún tipo de tasa masiva si va a utilizar la API de Speechmatics de forma extensiva.

Pros
  • Rápido
  • Fácil de usar
  • Preciso
  • Soporta múltiples idiomas
  • Admite múltiples variantes en inglés
  • Compatibilidad con varios altavoces
  • Soporta múltiples formatos de archivo
  • Funciona bien con audio ruidoso
  • Se integra fácilmente a través de la API REST
  • Reconocimiento de locutor
  • Se puede utilizar para servicios de transcripción basados ​​en la nube y uso privado, utilizando la misma API
Contras
  • Sin interfaz de aplicación
  • Cuesta dinero por cada consulta

Pensamientos finales

No todas las API de voz a texto son iguales. De hecho, piense en una API de reconocimiento de voz como una caja de herramientas en lugar de un producto que compraría en el mercado. Cada uno tiene diferentes fortalezas y debilidades. Saber qué API de Speech-To-Text es la adecuada para su producto depende en gran medida de para qué la usará.

Estas cinco API ciertamente tampoco son las únicas que puede usar para funciones relacionadas con la voz. Algunas otras API de reconocimiento de voz dignas de mención merecen una mirada.

Otras API de reconocimiento de voz notables incluyen:

AssemblyAI
Vocapia
Speech Engine de iFlyTek
UWP Speech Recognition de Microsoft
CMU Sphinx Speech Recognition Toolkit (código abierto)
Kaldi Speech Recognition Toolkit for Research (código abierto)

Cada una de las API de voz a texto tiene sus puntos fuertes. Si necesita transcripción o decodificación de audio ruidoso, Google Speech-To-Text es un excelente candidato. Si está buscando una funcionalidad de traducción y transcripción en tiempo real, Microsoft Cognitive Services probablemente sea su mejor opción. Si está buscando una API de reconocimiento de voz plug-and-play que se configure fácilmente para numerosos dispositivos y entornos de software, Dialogflow puede ser adecuado para usted.

Sin embargo, si va a tratar con grandes cantidades de datos no estructurados, IBM Watson será el que mejor se adapte a sus necesidades particulares. Si va a necesitar una separación de altavoces o una fácil integración con software adicional, Speechmatics le hará la vida lo más fácil posible, con su conveniente API REST.

Teniendo en cuenta el auge de los dispositivos móviles y manos libres, los asistentes virtuales y la inteligencia artificial, es seguro decir que la integración de voz no va a ninguna parte. Solo se volverá más frecuente, a medida que la tecnología continúe entrelazándose con el tejido de nuestra vida diaria.



Publicar un comentario

0 Comentarios