Post Top Ad

Your Ad Spot

martes, 18 de agosto de 2020

Ciencia de datos Vs Aprendizaje automático Vs Inteligencia artificial

¿Qué es la ciencia de datos?

La ciencia de datos es un campo interdisciplinario cuyo objetivo principal es la extracción de conocimientos y perspectivas significativas de los datos. Estos conocimientos se extraen con la ayuda de varios algoritmos matemáticos y basados ​​en aprendizaje automático. Por lo tanto, el aprendizaje automático es un elemento clave de la ciencia de datos.
Junto con el aprendizaje automático, como su nombre indica, los "datos" en sí mismos son el combustible de la ciencia de datos. Sin la disponibilidad de datos apropiados, no se pueden extraer conocimientos clave de ellos. Tanto el volumen como la precisión de los datos son importantes en este campo, ya que los algoritmos están diseñados para "aprender" con la "experiencia", que proviene de los datos proporcionados. La ciencia de datos implica el uso de varios tipos de datos, de múltiples fuentes. Algunos de los tipos de datos son datos de imagen, datos de texto, datos de video, datos dependientes del tiempo, datos independientes del tiempo, datos de audio, etc.
La ciencia de datos requiere el conocimiento de múltiples disciplinas. Como se muestra en la figura, es una combinación de matemáticas y estadística, habilidades en informática y conocimientos específicos de dominio. Sin un dominio de todos estos subdominios, la comprensión de la ciencia de datos será incompleta.  

¿Qué es el aprendizaje automático?

El aprendizaje automático es un subconjunto o parte de la inteligencia artificial. Implica principalmente el estudio científico de modelos algorítmicos, matemáticos y estadísticos que realiza una tarea específica mediante el análisis de datos, sin instrucciones paso a paso explícitas, basándose en patrones e inferencias, que se extraen de los datos. Esto también contribuye a su alias, Reconocimiento de patrones.
Su objetivo es reconocer patrones en un dato dado y sacar inferencias, lo que le permite realizar una tarea similar en datos similares pero invisibles. Estos dos conjuntos de datos separados se conocen como "Conjunto de entrenamiento" y "Conjunto de prueba", respectivamente.
El aprendizaje automático encuentra sus aplicaciones principalmente en la resolución de problemas complejos, que un programa normal orientado a procedimientos no puede resolver, o en lugares donde hay demasiadas variables que necesitan ser programadas explícitamente, lo cual no es factible.
Como se muestra en la figura, el aprendizaje automático es principalmente de tres tipos, a saber: aprendizaje supervisado, aprendizaje no supervisado y aprendizaje reforzado.
  • Aprendizaje supervisado:  esta es la forma de aprendizaje automático más utilizada y se usa ampliamente en toda la industria. De hecho, la mayoría de los problemas que se resuelven con el aprendizaje automático pertenecen al aprendizaje supervisado. Un problema de aprendizaje se conoce como aprendizaje supervisado cuando los datos se encuentran en forma de pares de características y etiquetas. En otras palabras, el algoritmo se entrena con datos donde se conoce la verdad básica. Esto es aprender con un maestro. Dos tipos comunes de aprendizaje supervisado son:
    • Clasificación:  este es un proceso en el que el conjunto de datos se clasifica en valores o categorías discretos. Por ejemplo, si la entrada al algoritmo es una imagen de un perro o un gato, idealmente, un algoritmo bien entrenado debería poder predecir si la imagen de entrada es la de un perro o de un gato.
    • Regresión:  este es un proceso en el que el conjunto de datos tiene valores objetivo con valores continuos. Es decir, la salida de la función no son categorías, sino un valor continuo. Por ejemplo, los algoritmos que pronostican el precio futuro del mercado de valores generarían un valor continuo (como 34,84, etc.) para un conjunto dado de entradas.  
  • Aprendizaje no supervisado:  esta es una técnica de aprendizaje mucho menos utilizada, pero bastante importante. Esta técnica se utiliza principalmente cuando hay datos sin etiquetar o datos sin los valores objetivo mencionados. En tal aprendizaje, el algoritmo tiene que analizar los datos en sí y sacar información basada en ciertos rasgos o características comunes en el conjunto de datos. Esto es aprender sin maestro. Dos tipos comunes de aprendizaje no supervisado son:
    • Agrupación: La  agrupación es una técnica de aprendizaje no supervisada bien conocida en la que el algoritmo agrupa automáticamente datos similares en función de características o rasgos comunes (por ejemplo, color, valores, similitud, diferencia, etc.).
    • Reducción de dimensionalidad:  Otro aprendizaje popular sin supervisión es la reducción de dimensionalidad. El conjunto de datos que se utiliza para el aprendizaje automático suele ser enorme y de grandes dimensiones (más de tres dimensiones). Un problema importante al trabajar con datos de alta dimensión es la visualización de datos. Dado que podemos visualizar y comprender hasta 3 dimensiones, los datos de dimensiones superiores suelen ser difíciles de interpretar para los seres humanos. Además de esto, una dimensión más alta significa más funciones, lo que a su vez significa un modelo más complejo, que a menudo es una maldición para cualquier modelo de aprendizaje automático. El objetivo es mantener el modelo más simple que funcione mejor en una amplia gama de datos invisibles. Por tanto, la reducción de la dimensionalidad es una parte importante del trabajo con datos de alta dimensión. Uno de los métodos más comunes de reducción de dimensionalidad esAnálisis de componentes principales (PCA).
  • Aprendizaje por refuerzo:  este es un enfoque completamente diferente del "aprendizaje" en comparación con las dos categorías anteriores. Esta clase particular de algoritmos de aprendizaje encuentra sus aplicaciones principalmente en Game AI, Robotics y Automatic Trading Bots. Aquí, la máquina no cuenta con una gran cantidad de datos. En cambio, en un escenario dado (patio de recreo) se definen algunos parámetros y restricciones y se suelta el algoritmo. La única retroalimentación que se le da al algoritmo es que, si gana o realiza una tarea correcta, es recompensado. Si pierde o realiza una tarea incorrecta, es penalizado. Con base en esta retroalimentación mínima, con el tiempo el algoritmo aprende a realizar la tarea correcta por sí solo.

¿Qué es la inteligencia artificial?

La Inteligencia Artificial es un vasto campo formado por asignaturas multidisciplinares, que tiene como objetivo crear artificialmente “inteligencia” para las máquinas, similar a la que muestran los humanos y los animales. El término se utiliza para describir máquinas que imitan funciones cognitivas  como el aprendizaje  y la resolución de problemas .
La inteligencia artificial se puede clasificar en tres partes: IA analítica, IA inspirada en humanos e IA humanizada.
  1. IA analítica:  solo tiene características que son consistentes con la inteligencia cognitiva. Genera una representación cognitiva del mundo que lo rodea a partir de experiencias pasadas, que inspira decisiones futuras.
  2. IA inspirada en humanos:  además de tener inteligencia cognitiva, esta clase de IA también tiene inteligencia emocional. Tiene una comprensión más profunda de las emociones humanas además de la inteligencia cognitiva y, por lo tanto, tiene una mejor comprensión del mundo que lo rodea. Tanto la inteligencia cognitiva como la inteligencia emocional contribuyen a la toma de decisiones de la IA inspirada en humanos.
  3. IA humanizada:  esta es la forma más superior de IA entre las tres. Esta forma de IA incorpora Inteligencia Cognitiva, Inteligencia Emocional e Inteligencia Social en su toma de decisiones. Con una comprensión más amplia del mundo que la rodea, esta forma de IA es capaz de tomar decisiones e interacciones con el mundo externo consciente y consciente de sí mismo.

¿Cómo están interrelacionados?

De las introducciones anteriores, puede parecer que estos campos no están relacionados entre sí. Sin embargo, este no es el caso. Cada uno de estos tres campos está bastante relacionado entre sí de lo que parece.
Si nos fijamos en los diagramas de Venn, la inteligencia artificial, el aprendizaje automático y la ciencia de datos son conjuntos superpuestos, el aprendizaje automático es un subconjunto o parte de la inteligencia artificial, y la ciencia de datos tiene una parte significativa de la inteligencia artificial y el aprendizaje automático.
La inteligencia artificial es un campo mucho más amplio e incorpora la mayoría de los otros campos de estudio relacionados con la inteligencia. El aprendizaje automático, al ser parte de la IA, se ocupa del aprendizaje algorítmico y la inferencia basada en datos y, finalmente, la ciencia de datos se basa principalmente en estadísticas, teoría de la probabilidad y tiene una contribución significativa del aprendizaje automático; por supuesto, la IA también es parte de ella, ya que el aprendizaje automático es un subconjunto de la inteligencia artificial.
Similitudes:  los tres campos tienen una cosa en común, el aprendizaje automático. Cada uno de estos depende en gran medida de los algoritmos de aprendizaje automático.
En Data Science, los algoritmos estadísticos que se utilizan se limitan a determinadas aplicaciones. En la mayoría de los casos, los científicos de datos se basan en técnicas de aprendizaje automático para extraer inferencias de los datos.
El avance tecnológico actual en inteligencia artificial se basa en gran medida en el aprendizaje automático. La parte de la IA sin aprendizaje automático es como un automóvil sin motor. Sin embargo, sin la parte de “aprendizaje”, la Inteligencia Artificial son básicamente sistemas expertos , algoritmos de búsqueda y optimización.
Diferencia entre los tres
Aunque son significativamente similares entre sí, todavía hay algunas diferencias clave que deben tenerse en cuenta.
Ciencia de los datosAprendizaje automáticoInteligencia artificial
El objetivo principal es el análisis de datos y la obtención de información significativa a partir de ellos mediante métodos estadísticos y algorítmicos.El objetivo principal es reconocer el patrón en los datos a través de algoritmos que "aprenden" de los datos dados y funcionan bien con los datos invisibles.El objetivo principal es lograr la “inteligencia” de las máquinas, de manera que sean conscientes social, emocional y lógicamente de su entorno.
La teoría del aprendizaje automático, la estadística y la probabilidad son los componentes básicos de la misma.Es una de las tecnologías fundamentales que alimentan otros campos. Basado principalmente en campos de estudio como Cálculo, Álgebra Lineal y Aprendizaje Profundo.El aprendizaje automático, los sistemas expertos, los algoritmos de búsqueda y optimización, las estadísticas, la probabilidad, el álgebra lineal y el cálculo son los componentes básicos de la IA.
Muy común en términos de perfil laboral.Menos común en términos de perfil laboral.Muy raramente los perfiles laborales piden Inteligencia Artificial.
Este es un dominio comercial y orientado a la investigación.Este es un dominio tanto comercial como orientado a la investigación.Este es más un dominio orientado a la investigación.

Aplicaciones

Dado que los tres dominios están relacionados entre sí, tienen algunas aplicaciones comunes y algunas únicas para cada uno de ellos. La mayoría de las aplicaciones implican el uso de Machine Learning de una forma u otra. Incluso entonces, existen determinadas aplicaciones de cada dominio, que son únicas. Algunos de ellos se enumeran a continuación:
  • Ciencia de datos: las  aplicaciones en este dominio dependen del aprendizaje automático y algoritmos matemáticos, como estadísticas y algoritmos basados ​​en probabilidades.
    • Pronóstico de series de tiempo:  esta es una aplicación muy importante de la ciencia de datos y se utiliza en toda la industria, principalmente en el sector bancario y el sector del mercado de valores. Aunque existen algoritmos basados ​​en aprendizaje automático para esta aplicación específica, los científicos de datos generalmente prefieren el enfoque estadístico.
    • Motores de recomendación:  este es un enfoque basado en estadísticas para recomendar productos o servicios al usuario, basándose en datos de sus intereses anteriores. Al igual que la aplicación anterior, también están presentes algoritmos basados ​​en Machine Learning para lograr resultados similares o mejores.
  • Aprendizaje automático: las  aplicaciones de este dominio son casi ilimitadas. Cada industria tiene algún problema que puede resolverse parcial o totalmente mediante técnicas de aprendizaje automático. Incluso los roles de ciencia de datos e inteligencia artificial hacen uso del aprendizaje automático para resolver una gran cantidad de problemas.
    • Visión por computadora:  este es otro subcampo que se incluye en el aprendizaje automático y se ocupa de la información visual. Este campo en sí encuentra sus aplicaciones en muchas industrias, por ejemplo, vehículos de conducción autónoma, imágenes médicas, sistemas de vigilancia autónomos, etc.
    • Procesamiento del lenguaje natural:  similar al ejemplo anterior, este campo también es un subcampo de investigación autónomo. El procesamiento del lenguaje natural (NLP) o la comprensión del lenguaje natural (NLU) se ocupa principalmente de la interpretación y comprensión del significado detrás del texto / lenguaje hablado o escrito. Comprender el significado exacto de una oración es bastante difícil (incluso para los seres humanos). Enseñar a una máquina a comprender el significado de un texto es aún más desafiante. Algunas de las principales aplicaciones de este subcampo son el desarrollo de chatbots inteligentes, asistentes de voz artificiales (Asistente de Google, Siri, Alexa, etc.), detección de spam, detección de incitación al odio, etc.
  • Inteligencia artificial: la  mayoría de los avances y aplicaciones actuales en este dominio se basan en un subcampo del aprendizaje automático, conocido como aprendizaje profundo. El aprendizaje profundo se ocupa de emular artificialmente la estructura y función de la neurona biológica. Sin embargo, dado que pocas de las aplicaciones de Deep Learning ya se han discutido en Machine Learning, veamos las aplicaciones de Inteligencia Artificial que no dependen principalmente del Machine Learning.
    • Game AI:  Game AI es una interesante aplicación de Inteligencia Artificial, donde la máquina automáticamente aprende a jugar juegos complejos al nivel en el que puede desafiar e incluso ganar contra un ser humano. DeepMind  de Googlehabía desarrollado una IA de juego llamada AlphaGo , que superó y superó al campeón mundial humano en 2017. De manera similar, las IA de videojuegos se han desarrollado para jugar a Dota 2, Flappy Bird y Mario. Estos modelos se desarrollan utilizando varios algoritmos como Búsqueda y Optimización, Modelos Generativos , Aprendizaje por Refuerzo, etc.
    • Búsqueda:  la inteligencia artificial ha encontrado varias aplicaciones en los motores de búsqueda, por ejemplo, Google y Bing Search. El método de visualización de los resultados y el orden en que se muestran los resultados se basan en algoritmos desarrollados en el campo de la Inteligencia Artificial. Estas aplicaciones contienen técnicas de aprendizaje automático, pero sus versiones anteriores fueron desarrolladas por algoritmos como el algoritmo PageRank patentado de Google, que no se basaba en el "aprendizaje".
    • Robótica:  Una de las principales aplicaciones de la Inteligencia Artificial se encuentra en el campo de la robótica. Enseñar a los robots a caminar / correr automáticamente (por ejemplo, Spot y Atlas ) usando Reinforcement Learning ha sido uno de los mayores objetivos de empresas como Boston Dynamics. Además de eso, los robots humanoides como Sophia  son un ejemplo perfecto de la aplicación de la IA para la IA humanizada.

Se requiere un conjunto de habilidades

Dado que los campos están interrelacionados en un grado significativo, el conjunto de habilidades necesarias para dominar cada uno de estos campos es casi el mismo y se superpone. Sin embargo, hay algunos conjuntos de habilidades que se asocian de forma única con cada uno de ellos. Lo mismo se ha discutido más a fondo.
  • Matemáticas:  cada uno de estos campos es pesado en matemáticas, lo que significa que las matemáticas son los bloques de construcción básicos de estos campos y para comprender completamente los algoritmos y dominarlos, se necesita una gran formación matemática. Sin embargo, todos los campos de las matemáticas no son necesarios para todos estos. Los campos específicos de matemáticas que se requieren se analizan a continuación:
    • Álgebra lineal:  dado que todos estos campos se basan en datos, que vienen en grandes volúmenes de filas y columnas, las matrices son el método más fácil y conveniente para representar y manipular dichos datos. Por lo tanto, es necesario un conocimiento profundo de las operaciones de álgebra lineal y matrices para los tres campos.
    • Cálculo:  Deep Learning, el subcampo del Machine Learning depende en gran medida del cálculo. Para ser más precisos, derivadas multivariadas. En las redes neuronales, los algoritmos de retropropagación requieren múltiples cálculos derivados, lo que exige un conocimiento profundo del cálculo.
    • Estadísticas:  dado que estos campos tratan con una gran cantidad de datos, el conocimiento de las estadísticas es imperativo. Los métodos estadísticos para hacer frente a la selección y prueba de tamaños de muestra más pequeños con diversidad son la aplicación común para los tres campos. Sin embargo, la estadística encuentra su aplicación principal en la ciencia de datos, donde la mayoría de los algoritmos se basan puramente en estadísticas (por ejemplo, elalgoritmo ARIMA  utilizado para el análisis de series temporales).
    • Probabilidad:  similar a la razón detrás de las estadísticas, la probabilidad y la probabilidad condicional de un determinado evento es el componente básico de importantes algoritmos de aprendizaje automático como el clasificador Naive Bayes . La teoría de la probabilidad también es muy importante para comprender los algoritmos de ciencia de datos.
  • Ciencias de la Computación:  No hay duda de que cualquiera de estos campos forma parte del campo de las Ciencias de la Computación. Por tanto, es muy necesario un conocimiento profundo de los algoritmos informáticos.
    • Algoritmos de búsqueda y optimización:  los algoritmos de búsqueda fundamentales como la búsqueda primero en amplitud (BFS), la búsqueda en profundidad primero (DFS), la búsqueda bidireccional, los algoritmos de optimización de ruta, etc. son bastante importantes. Estos algoritmos de búsqueda y optimización encuentran su uso en el campo de la Inteligencia Artificial.
    • Lógica difusa:  La lógica difusa (FL) es un método de razonamiento que se asemeja al razonamiento humano. Imita la forma en que los seres humanos toman decisiones. Por ejemplo, tomar una decisión SÍ o NO en función de un determinado conjunto de eventos o condiciones ambientales. La lógica difusa se utiliza principalmente en sistemas inteligentes artificialmente.
    • Algoritmos básicos y optimización:  aunque esto no es una necesidad, pero es un conocimiento bueno tenerlo ya que el conocimiento fundamental sobre algoritmos (búsqueda, clasificación, recursividad, etc.) y optimización (complejidad de espacio y tiempo) es necesario para cualquier campos relacionados con la informática.
  • Conocimientos de programación:  La implementación de cualquiera de los algoritmos en estos campos es a través de la programación. Por lo tanto, es necesario un conocimiento profundo de la programación. Se comentan más a fondo algunos de los lenguajes de programación más utilizados.
    • Python:  uno de los lenguajes de programación más utilizados para cualquiera de estos campos es Python. Se utiliza en toda la industria y es compatible con una gran cantidad de bibliotecas de código abierto para aprendizaje automático, aprendizaje profundo, inteligencia artificial y ciencia de datos. Sin embargo, la programación no se trata solo de escribir código, se trata de escribir código Pythonic adecuado. Esto se ha discutido en detalle en este artículo: Una guía para las mejores prácticas de Python .
    • R:  Este es el segundo lenguaje de programación más utilizado para este tipo de aplicaciones en la industria. R sobresale en bibliotecas estadísticas y visualización de datos en comparación con Python. Sin embargo, carece de manera significativa cuando se trata de bibliotecas de aprendizaje profundo. Por lo tanto, R es una herramienta preferida por los científicos de datos.

Mercado de trabajo

El mercado laboral para cada uno de estos campos tiene una demanda muy alta. Como dice una cita directa de Andrew Ng , "AI es la nueva electricidad". Esto es bastante cierto, ya que el campo extendido de la inteligencia artificial está a punto de revolucionar todas las industrias de formas que no se podían anticipar antes.
Por lo tanto, la demanda de trabajos en el campo de la ciencia de datos y el aprendizaje automático es bastante alta. Hay más puestos vacantes en todo el mundo que la cantidad de ingenieros calificados que son elegibles para ocupar ese puesto. Por lo tanto, debido a las limitaciones de la oferta y la demanda, la cantidad de compensación ofrecida por las empresas por tales roles excede cualquier otro dominio.
El escenario de trabajo para cada uno de los diferentes dominios se analiza más a fondo:
  1. Ciencia de datos:  el número de ofertas de trabajo con el perfil de Ciencia de datos es el más alto entre los tres dominios discutidos. A los científicos de datos se les paga generosamente por su trabajo. Debido a las líneas borrosas en términos de la diferencia entre los campos, la descripción del trabajo de un científico de datos va desde la predicción de series de tiempo hasta la visión por computadora. Básicamente cubre todo el dominio. Para obtener más información sobre el aspecto laboral de la ciencia de datos, puede consultar el artículo sobre qué es la ciencia de datos .
  2. Aprendizaje automático: a  pesar de que la cantidad de publicaciones de trabajos que tienen el perfil de trabajo como “Ingeniero de aprendizaje automático” es mucho menor en comparación con la de un científico de datos, sigue siendo un campo importante a considerar cuando se trata de disponibilidad de trabajos. Además, alguien que tenga experiencia en aprendizaje automático es un buen candidato a considerar para un puesto en ciencia de datos. Sin embargo, a diferencia de la ciencia de datos, las descripciones de puestos de aprendizaje automático se ocupan principalmente de los requisitos de los algoritmos de "aprendizaje" (incluido el aprendizaje profundo), y la industria abarca desde el procesamiento del lenguaje natural hasta el desarrollo de motores de recomendación.
  3. Inteligencia artificial:  encontrar ofertas de trabajo con perfiles de desarrollador de “desarrollador de inteligencia artificial” es bastante raro. En lugar de "Inteligencia artificial", la mayoría de las empresas escriben "Científicos de datos" o "Ingenieros de aprendizaje profundo / máquina" en el perfil del puesto. Sin embargo, los desarrolladores de inteligencia artificial, además de conseguir puestos de trabajo en el ámbito del aprendizaje automático, suelen encontrar puestos de trabajo en empresas orientadas a la robótica y la I + D de IA como Boston Dynamics , DeepMind , OpenAI , etc.

Conclusión

La ciencia de datos, el aprendizaje automático y la inteligencia artificial son como las diferentes ramas de un mismo árbol. Se superponen en gran medida y no hay un límite claro entre ellos. Tienen requisitos comunes de conjunto de habilidades y aplicaciones comunes también. Son solo nombres diferentes que se dan a versiones ligeramente diferentes de IA.
Finalmente, vale la pena mencionar que, dado que existe una gran superposición en el conjunto de habilidades requeridas, un ingeniero con habilidades óptimas es elegible para trabajar en cualquiera de los tres dominios y cambiar de dominio sin ningún cambio importante.

No hay comentarios.:

Publicar un comentario

Dejanos tu comentario para seguir mejorando!

outbrain

Páginas