Post Top Ad

Your Ad Spot

martes, 18 de agosto de 2020

Cómo convertirse en un científico de datos

Cómo convertirse en un científico de datos

¿Qué es un científico de datos?

Data Scientist es un profesional que se encuentra en la confluencia de tecnología, conocimiento del dominio y negocios para abordar la revolución de los datos. Un científico de datos debe ser matemático, programador informático, analista, estadístico y comunicador eficaz para convertir los conocimientos en acciones.
Diagrama de venn del científico de datos
Enlace de origen:
No son solo las habilidades técnicas las que hacen de Data Scientist el trabajo más demandado del siglo XXI, se necesita mucho más. Data Scientist es un profesional que utiliza estas herramientas de la nueva era para administrar, analizar y visualizar datos.
Tomemos un ejemplo para comprender mejor un día en la vida de un científico de datos. En un día normal, a un científico de datos se le puede plantear un problema abierto como " Necesitamos que nuestros clientes se queden más tiempo y vean / lean más contenido ". Los siguientes son algunos pasos con los que podría comenzar:
  • El sombrero de negocios

    El trabajo del científico de datos implicaría, en primer lugar, traducir este planteamiento del problema en un problema de ciencia de datos cuantificable. Para esto, primero podría preguntar o identificar el tiempo actual que dedican los usuarios y discutir con los equipos de negocios cómo cuantificar “ más ”.
  • El sombrero de programación

    Luego se dedicaría a la recopilación de datos. Tendría que trabajar con diferentes equipos para comprender qué tipo de datos están disponibles, qué podría necesitar para su análisis, etc. Una vez que tenía claro qué y dónde estaba relacionado con los datos, extraía y preparaba los datos para su análisis.
  • El sombrero analítico

    Aquí utilizaría sus poderes analíticos y estadísticos para hacer preguntas importantes utilizando datos. Esto normalmente implica un análisis exploratorio, un análisis descriptivo, etc.
Después de esto, hay pasos adicionales en los que el científico de datos se dirigirá hacia la construcción de modelos para mejorar realmente el tiempo dedicado al sitio web mediante el desarrollo de motores de recomendación, etc., compartiendo resultados / modelos de ajuste fino con equipos comerciales, etc. Luego llevaría esto al entorno de producción, donde realmente se puede probar y finalmente usar.
El ejemplo anterior es una versión demasiado simplificada de las tareas que realiza un científico de datos típico. Sin embargo, debería darle una idea de cómo un profesional de este tipo utiliza los diferentes conjuntos de habilidades.

Ciencia de datos frente a estadísticas

La ciencia de datos se puede definir de muchas formas. Una de las definiciones más interesantes y verdaderas lo marca como el cuarto paradigma  enlace ). Los tres primeros son ciencia experimental, teórica y computacional. El cuarto paradigma, explica el Dr. Jim Gray, es la respuesta para hacer frente a la enorme avalancha de datos que se recopilan / generan todos los días.
En palabras simples, Data Science es, por tanto, una nueva generación de herramientas científicas y informáticas que pueden ayudar a gestionar, analizar y visualizar cantidades tan enormes de datos.
La explicación del término científico de datos y ciencia de datos parece indicar que es un campo completamente nuevo con su propio conjunto de técnicas y herramientas. Aunque esto es cierto hasta cierto punto, no del todo. La ciencia de datos, como se mencionó anteriormente, se encuentra en la confluencia de tecnología, conocimiento de dominio y comprensión empresarial. Por lo tanto, utiliza herramientas y técnicas de varios campos para formar un conjunto de metodologías integrales para convertir los datos en conocimientos.

Tradicionalmente, la estadística ha sido el tema de referencia para analizar datos e hipótesis. Los métodos estadísticos se basan en teorías establecidas y años de investigación.
Estadísticas de ciencia de datos
Aunque la ciencia de datos y las estadísticas tienen objetivos similares (y técnicas que se superponen en ciertos casos), es decir, utilizar los datos para llegar a conclusiones y compartir conocimientos, no son lo mismo. Las estadísticas son anteriores a la era de la informática, mientras que la ciencia de datos es una fusión de conocimientos interdisciplinarios de la nueva era.
Existe un debate interminable sobre las definiciones de ciencia de datos y estadística. La vieja escuela cree que la ciencia de datos es simplemente un cambio de marca de las estadísticas, mientras que los expertos de la nueva era difieren enormemente. Entre todo esto, se presentó una visión interesante y algo precisa sobre el tema en un artículo en el sitio web de Priceonomics ( enlace ):
“Las estadísticas se desarrollaron principalmente para ayudar a las personas a lidiar con problemas de datos anteriores a la computadora, como probar el impacto de los fertilizantes en la agricultura o determinar la precisión de una estimación a partir de una pequeña muestra. La ciencia de datos enfatiza los problemas de datos del siglo XXI, como acceder a información de grandes bases de datos, escribir código para manipular datos y visualizar datos ".

Calificaciones educativas para convertirse en científico de datos

Vale la pena reiterar el hecho de que la ciencia de datos es un campo interdisciplinario. Esto tiene sentido ya que la ciencia de datos no se limita a un solo campo de estudio o industria. Se utiliza en todos los campos que pueden generar datos o los están generando. No es una sorpresa ver que los científicos de datos provienen de diversos antecedentes académicos. Sin embargo, existen algunas habilidades importantes y comunes que estos profesionales tienen en primer lugar. Las calificaciones educativas requeridas para convertirse en un científico de datos se pueden resumir de la siguiente manera:
  • Un título de posgrado en un campo de estudio cuantitativo. Las áreas de matemáticas, informática, ingeniería, estadística, física, ciencias sociales, economía, estadística o campos relacionados son las más comunes.
  • Las opciones más nuevas, como los bootcamps y los MOOC (cursos en línea masivamente abiertos) son bastante populares para que los profesionales pasen a las áreas de ciencia de datos.
  • Un título avanzado en forma de maestría o incluso doctorado ciertamente ayuda. Cada vez más, muchos profesionales de la ciencia de datos tienen títulos tan avanzados ( enlace ).

Habilidades técnicas necesarias para convertirse en científico de datos

Esta es la parte más complicada de todo el viaje. Si bien ser interdisciplinario es bueno en la mayoría de los aspectos, también presenta una pregunta abrumadora para los principiantes. Los científicos de datos son narradores de historias. Convierten los datos sin procesar en conocimientos prácticos aprovechando herramientas y técnicas de diversos campos. Sin embargo, las habilidades de programación genéricas siguen siendo el denominador común. Además de las habilidades de programación, las siguientes son algunas habilidades técnicas importantes que suele tener un científico de datos:
  • Conocimientos y conocimientos matemáticos (el álgebra lineal, el cálculo y la probabilidad son importantes)
  • Conceptos y algoritmos de Machine Learning.
  • Conceptos estadísticos (prueba de hipótesis, técnicas de muestreo, etc.)
  • Habilidades de informática / ingeniería de software (estructuras de datos, algoritmos)
  • Habilidades de visualización de datos (herramientas como d3.js, ggplot, matplotlib, etc.)
  • Manejo de datos (RDBMS, herramientas de Big Data como Hive, Spark)
Aunque no existen reglas estrictas y rápidas, la mayoría de los científicos de datos confían en lenguajes de programación / scripting como python, R, scala, Julia, Java o SAS para realizar las tareas diarias, desde los datos sin procesar hasta los conocimientos.

Ruta de aprendizaje para científicos de datos: desde los fundamentos, las estadísticas hasta la resolución de problemas

Convertir los datos en información valiosa es más fácil de decir que de hacer. Un proyecto típico de ciencia de datos implica muchas subtareas importantes que deben realizarse de manera eficiente y correcta. Permítanos dividir el camino de aprendizaje en hitos y discutir cómo seguir el viaje.
  • Paso 1: seleccione un lenguaje de programación

     y python son lenguajes de programación ampliamente aceptados y utilizados en la comunidad de ciencia de datos. Hay otros lenguajes como Java, Scala, Julia, Matlab y hasta cierto punto SAS . Sin embargo,  y Python  tienen un gran ecosistema y una comunidad que contribuyen a mejorarlo cada día. Aunque no existe el mejor lenguaje de programación para la ciencia de datos, existen algunos favoritos y populares. Al comenzar con su viaje de ciencia de datos, puede resultar confuso cuál elegir. A continuación, se incluyen algunos consejos que pueden resultar útiles:
    • R

      R es el lenguaje más popular cuando se trata de análisis estadístico y modelado de series de tiempo. También tiene una buena cantidad de algoritmos de aprendizaje automático y paquetes de visualización. Puede tener una curva de aprendizaje peculiar, pero es bueno para explorar sus datos, proyectos únicos o prototipos rápidos. También suele ser el idioma de referencia para informes académicos y trabajos de investigación.
    • Pitón

      Python es uno de los lenguajes de programación más utilizados. A veces también se lo conoce como un lenguaje científico popular. Su comunidad en constante expansión, la facilidad para escribir código, el ecosistema y el soporte son las razones de su popularidad. Los paquetes de Python como numpy, pandas y sklearn permiten a los científicos de datos e investigadores trabajar con matrices y otros conceptos matemáticos con facilidad.
    • La familia Java

      R y python son grandes lenguajes y son de gran ayuda cuando se trata de la creación rápida de prototipos (aunque eso está cambiando lentamente con Python que también se usa en producción). Los pesos pesados ​​de la industria siguen siendo los lenguajes de la familia Java. Java en sí mismo es una tecnología madura y probada con una extensa lista de paquetes para aprendizaje automático, procesamiento de lenguaje natural, etc. Scala se deriva en gran medida de Java y es uno de los lenguajes de referencia para manejar big data.
Hay varios cursos en plataformas como Coursera y Udemy para que comiences con estos idiomas. Algunos de los cursos son:
  • Programación para todos (Empezando con Python)
  • Ciencia de datos aplicada con especialización en Python
  • Programación R
  • Programación R avanzada
Julia y los lenguajes de este tipo son los próximos con un enfoque especial hacia la ciencia de datos y el aprendizaje automático. Estos lenguajes tienen las ventajas de tener la ciencia de datos como uno de sus conceptos centrales, a diferencia de los lenguajes tradicionales que se han ampliado para satisfacer las necesidades de DS / ML. Una vez más, todo se reduce a una elección personal y una comodidad cuando se trata de decidir qué idioma elegir.
  • Paso 2: Aprenda estadística y matemáticas

    Estos son los conceptos básicos necesarios para comprender las complejidades de los más involucrados. Los más esenciales son:
    • Teoría de Álgebra Lineal, Cálculo y Probabilidad

      Tener una comprensión de estos conceptos le ayudará a la larga a comprender conceptos complejos. La teoría de la probabilidad es imprescindible, ya que gran parte del aprendizaje automático y las estadísticas se basan en medir la probabilidad de eventos, la probabilidad de fallas o victorias, etc. Estos conceptos se pueden aprender a través de una serie de libros de texto para el aula, como  Teoría de la probabilidad de ET James ,  Reconocimiento de patrones y aprendizaje automático de Christopher M. Bishop , Introducción al álgebra lineal de Gilbert Strang . Puede buscar estos libros / libros electrónicos o incluso videos en youtube, khan academy, etc.
    • Estadísticas :

      Estos forman la base misma de muchas cosas que haría como científico de datos. Los siguientes son algunos de los recursos en línea más populares que pueden ser útiles en este viaje:
      • Estadísticas:
        • El libro de Statsoft sobre estadísticas
        • Educación en estadística en línea
  • Paso 3: Encendido con aprendizaje automático:

Las matemáticas y la estadística le brindan la comprensión necesaria para aprender las herramientas y técnicas necesarias para aprovechar el aprendizaje automático para resolver problemas del mundo real. Las técnicas de ML amplían las capacidades de un científico de datos para manejar diferentes tipos y tamaños de conjuntos de datos. Es un tema vasto por sí solo que se puede categorizar ampliamente en:
  • Métodos supervisados como algoritmos de clasificación y regresión
  • Métodos no supervisados como diferentes técnicas de agrupación
  • Aprendizaje por refuerzo como q-learning, etc.
  • Aprendizaje profundo (que abarca los tres tipos anteriores, está emergiendo lentamente como un campo especializado propio)
Fuente de imagen:
Los siguientes son algunos recursos útiles para comenzar con el tema:
  • Bootcamp de Python para ciencia de datos y aprendizaje automático
  • R: Soluciones completas de aprendizaje automático
  • Bootcamp de ciencia de datos y aprendizaje automático en R
  • Especialización en aprendizaje profundo
  • Nano Grado en Ciencia de Datos
  • Programación para Nano Grado en Ciencia de Datos
  • Paso 4: ¡Practica!

    Toda la teoría y ninguna práctica te llevaría a ninguna parte. La ciencia de datos tiene un elemento de arte aparte de toda la ciencia y la teoría que lo respalda. Un científico de datos necesita practicar para perfeccionar las habilidades necesarias para trabajar en problemas del mundo real. Afortunadamente, el ecosistema y la comunidad de Data Science es realmente un gran lugar. Para practicar la ciencia de datos, necesita un enunciado del problema y los datos correspondientes. Los sitios web como Kaggle, UCI Machine Learning Repository y muchos otros son un gran recurso. Algunos de los más populares son los siguientes:
    • Demanda de bicicletas compartidas : Teniendo en cuenta el alquiler diario de bicicletas y los registros meteorológicos, predicen la futura demanda diaria de alquiler de bicicletas.
    • Conjunto de datos de iris : Dadas las medidas de las flores en centímetros, se predice la especie de iris.
    • Conjunto de datos de vino : Dado un análisis químico de los vinos, se predice el origen del viento.
    • Conjunto de datos de evaluación de automóviles : los detalles dados sobre los automóviles predicen la seguridad estimada del automóvil.
    • Conjunto de datos de cáncer de mama de Wisconsin : dados los resultados de una prueba de diagnóstico en tejido mamario, prediga si la masa es un tumor o no.
También hay una lista detallada de conjuntos de datos que el Dr. Jason Brownlee analiza aquí en su blog machinelearningmastery.com.Además
de estos conjuntos de datos, hay competiciones regulares sobre problemas de ciencia de datos en sitios web como Kaggle , AnalyticsVidya , KDNuggests  , etc. Vale la pena participar en estos concursos para aprender los trucos del oficio de algunos de los artistas experimentados.
  • Paso 5: crear una cartera

    Al igual que un fotógrafo o un pintor, un científico de datos es un artista. Mientras trabaja en los diferentes conjuntos de datos y competencias, puede crear un portafolio de su trabajo completado para mostrar sus hallazgos y aprendizajes. Esto no solo lo ayudará a mostrar su talento, sino que también le dará una idea de su progreso a medida que aprende métodos nuevos y complejos. Un portafolio de aprendizaje automático / ciencia de datos es una colección de proyectos independientes que utiliza el aprendizaje automático de una forma u otra. Una cartera típica de aprendizaje automático puede brindarle los siguientes beneficios:
    • Muestra:  su conjunto de habilidades y comprensión técnica
    • Base de código reutilizable : a medida que trabaja en más y más proyectos, hay ciertos componentes que serían necesarios una y otra vez. Su cartera puede ser un repositorio de dichos componentes reutilizables.
    • Mapa de progreso : un portafolio también es un mapa de su progreso a lo largo del tiempo. Con cada proyecto, mejorará y aprenderá nuevos conceptos complejos. Esta es una excelente manera de mantenerse motivado también.
Por lo general, los científicos de datos aprovechan sus carteras junto con sus CV para entrevistas  y posibles empleadores para comprender mejor sus capacidades. Los repositorios de código se pueden mantener en sitios web como github , bitbucket  , etc. También es bastante común mantener un blog para compartir sus hallazgos, comentarios e investigaciones con una audiencia más amplia junto con la autopromoción.
  • Paso 6: Búsqueda de empleo / Trabajo autónomo:

    Una vez que se hace el trabajo de base, es hora de cosechar algunos beneficios. Vivimos en la era de los datos y casi todos los dominios y esferas del comercio están (o intentan) aprovechar la ciencia de datos. Para aprovechar su conjunto de habilidades para la búsqueda de empleo o el trabajo independiente, existen algunos recursos increíbles para ayudarlo:
    • Preparación de la entrevista:
      • Aprendizaje automático usando Python
      • Guía de entrevistas sobre ciencia de datos y aprendizaje automático
      • Aprendizaje profundo
    • Concursos de ciencia de datos:
      • Kaggle
      • Inocente
      • Tuneditar
    • Hackathons:
      • HackerEarth
      • MachineHack
Cada una de estas plataformas le proporciona un ecosistema de expertos y reclutadores que pueden ayudarlo a conseguir un trabajo o un proyecto independiente. Estas plataformas también le brindan la oportunidad de perfeccionar sus habilidades y prepararlas para el mercado.

Principales universidades que ofrecen un curso de científico de datos

Los requisitos educativos para convertirse en un científico de datos se discutieron anteriormente. Además de los campos de estudio cuantitativos tradicionales, muchas universidades de renombre de todo el mundo también ofrecen cursos especializados en ciencia de datos para estudiantes de pregrado, posgrado y en línea. Algunas de las principales universidades de EE. UU. Que ofrecen estos cursos son:

1. Cursos de tecnología de la información y gestión de datos en la Universidad Técnica de Colorado

  • Nombre del curso :  Maestría profesional en ciencias de la computación
  • Duración del curso : 2 años
  • Ubicación :  Boulder, Colorado
  • Cursos : aprendizaje automático, redes neuronales y aprendizaje profundo, procesamiento del lenguaje natural, Big Data, HCC Big Data Computing y muchos más
  • Pistas disponibles : ciencia e ingeniería de datos
  • Créditos :  30

2. Maestría en Ciencias de la Información, Universidad de Columbia

  • Nombre del curso : Maestría en Ciencias en Ciencia de Datos
  • Duración del curso : 1,5 años
  • Ubicación : New York City, New York
  • Cursos básicos : teoría de la probabilidad, algoritmos para ciencia de datos, inferencia y modelado estadísticos, sistemas informáticos para ciencia de datos, aprendizaje automático para ciencia de datos y análisis y visualización exploratorios de datos.
  • Créditos : 30

3. Maestría en Ciencia de Datos Computacionales, Universidad Carnegie Mellon

  • Nombre del curso : Maestría en ciencia de datos computacionales
  • Duración del curso : 2 años
  • Ubicación : Pittsburgh, Pennsylvania
  • Cursos básicos : Seminario sobre aprendizaje automático, computación en la nube, ciencia de datos interactivos y ciencia de datos
  • Pistas disponibles : sistemas, análisis y ciencia de datos centrada en las personas
  • Unidades a completar : 144

4. Maestría en Ciencia de Datos, Universidad de Stanford

  • Nombre del curso : Maestría en Estadística: Ciencia de datos
  • Duración del curso : 2 años
  • Ubicación : Stanford, California
  • Cursos básicos :  Álgebra lineal numérica, Matemáticas discretas y algoritmos, Optimización, Métodos estocásticos en ingeniería o algoritmos aleatorios y análisis probabilístico, Introducción a la inferencia estadística, Introducción a los modelos de regresión y Análisis de varianza o Introducción al modelado estadístico, Estadística aplicada moderna: Aprendizaje, y estadísticas aplicadas modernas: minería de datos
  • Pistas disponibles : el programa en sí mismo es una pista
  • Unidades a completar : 45

5. Maestría en Analítica, Instituto de Tecnología de Georgia

  • Nombre del curso : Maestría en Ciencias en Análisis
  • Duración del curso : 1 año
  • Ubicación : Atlanta, Georgia
  • Cursos principales : Big Data Analytics en la empresa y Data and Visual Analytics,
  • Pistas disponibles: herramientas analíticas, análisis de negocios y análisis de datos computacionales
  • Créditos : 36
También hay muchos otros cursos impartidos por otras universidades importantes en Europa y Asia. Además, los MOOC de plataformas como Coursera, Udemy, Khan Academy y otras también han ganado popularidad últimamente.

Funciones y responsabilidades de un científico de datos: ¿qué hace un científico de datos?

El rol y las responsabilidades de un científico de datos varían mucho de una organización a otra. Dado que el ciclo de vida de un proyecto de ciencia de datos involucra muchas piezas intrincadas, cada una con su propia importancia, es posible que se requiera que un científico de datos realice diferentes tareas. Por lo general, un día en la vida de un científico de datos comprende una o más de las siguientes tareas:
  • Formular preguntas abiertas y realizar investigaciones en diferentes áreas.
  • Extraer datos de diferentes fuentes de dentro y fuera de la organización.
  • Desarrollar canalizaciones ETL para preparar datos para su análisis
  • Emplear sofisticadas técnicas / algoritmos estadísticos y / o de aprendizaje automático para resolver problemas en cuestión.
  • Análisis exploratorio y descriptivo de datos.
  • Visualización de datos en diferentes etapas del proyecto.
  • Narración de historias / comunicación de resultados y hallazgos a consumidores finales / equipos de TI / equipos comerciales
  • Implemente soluciones inteligentes para automatizar tareas
La lista anterior no es de ninguna manera exhaustiva. Es posible que se requieran tareas específicas para organizaciones y / o escenarios específicos. Dependiendo del conjunto de tareas asignadas o de las fortalezas de un individuo en particular, el rol de Data Scientist puede tener diferentes facetas. Algunas organizaciones dividen las tareas establecidas anteriormente en roles específicos como:
  • Ingeniero de datos : se concentra más en el desarrollo de canalizaciones ETL e infraestructura de Big Data.
  • Analista de datos : se concentra en pruebas de hipótesis, pruebas A / B, etc.
  • Analista de BI : se  concentra en visualizaciones, informes de BI, etc.
  • Ingeniero de aprendizaje automático / ciencia de datos : se  concentra en implementar soluciones de aprendizaje automático en sistemas de producción
  • Investigador científico : se concentra en investigar nuevas técnicas, problemas abiertos, etc.
Aunque algunas organizaciones separan los roles y responsabilidades, otras optaron por tener un título de científico de datos común.

Salarios de un científico de datos

El título del trabajo más codiciado del siglo XXI también debería tener un salario igualmente tentador. Los datos también confirman la hipótesis desde varios aspectos. Diferentes encuestas de todo el mundo han analizado los salarios de los científicos de datos y los resultados son asombrosos.
El estudio de Burtch Works para salarios de científicos de datos es una de esas encuestas:
  • La encuesta señala que después de los aumentos máximos en los salarios de los científicos de datos en diferentes niveles en 2015-2016, los salarios para 2018 han sido más o menos estables en los niveles del año anterior.
  • El salario base mediana para una posición de partida es de alrededor de $ 95k que se eleva hasta $ 165K  para 9+ años de experien ce  (para contribuyentes individuales)  
El salario base promedio de los gerentes comienza alrededor de $ 145 mil y sube a $ 250 mil (por más de 10 años de experiencia)  
Fuente de imagen
Una encuesta realizada por PromptCloud en líneas similares trató de identificar las diferentes habilidades requeridas para los diferentes puestos de trabajo de Data Scientist. Los resultados muestran a Python como la habilidad más importante requerida, seguida de SQL, R y otros. Esto muestra cuán importante es el ecosistema de Python y Python para el trabajo y la comunidad de Data Science.
habilidades en el requisito de trabajo para científico de datos
El Glassdoor 50 Best Jobs in America for 2018 ( enlace ) califica a Data Scientist como el número uno con un salario promedio de alrededor de USD 120k. El estudio también identifica otros puestos de trabajo relacionados con la ciencia de datos como Analista de datos y Analista cuantitativo en el estudio.
Salarios de Data Scientist
Fuente de imagen
Resultados similares de Payscale, Linkedin y otros confirman el hecho. Los científicos de datos son realmente buscados en todo el mundo.

Principales empresas que contratan a Data Scientist

Con los avances en computación y almacenamiento y la correspondiente reducción del costo del hardware, la tecnología es parte integral de casi todas las industrias. Desde la industria aeroespacial hasta la minería, desde Internet hasta la agricultura, todas las esferas del comercio están generando una inmensa avalancha de datos. Donde hay datos, hay ciencia de datos. Casi todas las industrias actuales aprovechan los beneficios de la ciencia de datos.

Algunas de las principales empresas que contratan científicos de datos son:

GoogleGorjeoGE-SaludHP
MicrosoftAirbnbGE-AviaciónIBM
manzanaUberUnitedHealth GroupIntel
FacebookAmazonasBoeingExpreso Americano
Estos son algunos de los grandes nombres en sus respectivos campos. Hay muchas empresas emergentes junto con pequeñas y medianas empresas que también están aprovechando a los científicos de datos para tener un impacto en sus respectivos campos.

¿En qué se diferencia la ciencia de datos de la inteligencia artificial?

Nuestra discusión hasta ahora ha girado en torno a la ciencia de datos y conceptos relacionados. En el mismo contexto, hay otro término importante, Inteligencia Artificial (IA). Hay momentos en que términos como AI y Data Science se usan indistintamente, mientras que hay personas que también los perciben de manera diferente. Para comprender cada lado, primero intentemos comprender el término Inteligencia Artificial.
La inteligencia artificial se puede definir de muchas formas. La definición más coherente y comúnmente aceptada establece:
“El diseño y construcción de agentes inteligentes que reciben percepciones del entorno y toman acciones que afectan ese entorno”
La definición anterior proviene de los pesos pesados ​​de la IA, el Dr. Peter Norvig y el Dr. Stuart Russell. En pocas palabras, esta definición destaca la presencia de agentes inteligentes que actúan a partir de estímulos del entorno, lo que a su vez repercute también en el entorno. Suena muy similar a cómo funcionamos nosotros, como seres humanos.
La génesis de la inteligencia artificial como campo de estudio / investigación se atribuye al famoso taller de Dartmouth en 1956. El taller fue realizado por John McCarthy y Marvin Minsky, entre otras personalidades destacadas de la informática y el espacio de la IA. Su taller brindó el primer vistazo a sistemas / agentes inteligentes. Los programas fueron estrategias de aprendizaje para el juego de damas. Se informó que los programas funcionaban mejor que los seres humanos promedio en 1959. Una hazaña notable en sí misma. Desde entonces, el campo de la IA ha experimentado muchos cambios, avances teóricos y prácticos.
El campo de la IA se centra en tener éxito en maximizar las posibilidades del agente de lograr un objetivo establecido. El objetivo se puede calificar de simple (si solo se trata de ganar o perder) o complejo (tomar los siguientes pasos en función de las recompensas de movimientos anteriores). Con base en estas categorías de objetivos, la IA se ha centrado en resolver problemas en los siguientes dominios de alto nivel a lo largo de su historia:
  • Representación del conocimiento

    Este es uno de los conceptos centrales en la investigación clásica de IA. Como parte de la Representación del conocimiento o la Ingeniería del conocimiento, intentamos capturar el conocimiento del mundo (donde el mundo es un dominio específico y estrecho) que poseen los expertos. Esta fue el área de investigación más importante para los sistemas expertos. El campo de la ontología está altamente asociado con la representación del conocimiento.
  • Tareas de resolución de problemas y razonamiento

    Esta es una de las primeras áreas de investigación. Aquí, los investigadores se centraron en imitar el razonamiento humano paso a paso para tareas como la resolución de acertijos y las deducciones lógicas.
  • Percepción

    La capacidad de utilizar la entrada de diferentes sensores, como micrófonos, cámaras, radares, sensores de temperatura, etc. para la toma de decisiones. Esto también se denomina percepción de máquinas con aplicaciones modernas como reconocimiento de voz, detección de objetos, etc.
  • Movimiento y manipulación

La capacidad de moverse y explorar el entorno es una característica importante muy utilizada en el espacio de la robótica. En particular, los robots industriales, los brazos robóticos y las asombrosas máquinas de grupos como Boston Dynamics son excelentes ejemplos.
  • Inteligencia social

    Se considera uno de los objetivos inverosímiles en los que se espera que los sistemas inteligentes comprendan las emociones humanas y los motivos para tomar decisiones. Los asistentes virtuales actuales (como el Asistente de Google, Alexa, Cortana, etc.) brindan un vistazo de tales ventajas al permitirles (asistentes virtuales) conversar, bromear y tener una pequeña charla.
Los dominios de las tareas de aprendizaje, caracterizados como el aprendizaje supervisado y no supervisado junto con las tareas de procesamiento del lenguaje natural, se han asociado tradicionalmente con la IA. Sin embargo, con los avances recientes en estos campos, a veces se los ve por separado o ya no forman parte de la IA. Esto también se conoce como efecto de IA o teorema de Tesler. El efecto AI simplemente dice:
"La IA es todo lo que aún no se ha hecho"
Por el mismo motivo, el OCR o el reconocimiento óptico de caracteres, la traducción de voz y otros se han convertido en tecnologías cotidianas. Este avance ha llevado a que estas tecnologías ya no se consideren parte de la investigación de IA.
Antes de continuar, hay otro detalle importante sobre la IA. La inteligencia artificial se clasifica en dos categorías amplias. Estos son:
  • IA estrecha

    También denominado IA débil. Esta categoría se centra en tareas de IA manejables. Específicamente, la mayor parte de la investigación actual se centra en tareas limitadas como el desarrollo de vehículos autónomos, el reconocimiento automático de voz, la traducción automática, etc. Estas áreas trabajan para construir sistemas inteligentes que imiten el desempeño a nivel humano, pero se limitan a áreas específicas únicamente.
  • IA profunda

    Esto también se denomina IA fuerte o mejor, Inteligencia General Artificial. Si un agente inteligente es capaz de realizar cualquier tarea intelectual, se considera que posee Inteligencia General Artificial. Se considera que AGI es una suma de la representación, el razonamiento, la planificación, el aprendizaje y la comunicación del conocimiento.
La IA profunda o AGI parece un sueño inverosímil, pero los avances como las técnicas de Aprendizaje por transferencia y Aprendizaje por refuerzo son pasos en la dirección correcta.
Inteligencia artificial
Fuente de imagen
Ahora que entendemos la inteligencia artificial y su historia, intentemos comprender en qué se diferencia de la ciencia de datos. La ciencia de datos, como sabemos, es una amalgama de herramientas y técnicas de diferentes campos (similar a la IA). A partir de la discusión anterior, vemos que existe una superposición definida entre la definición de IA débil / estrecha y las tareas de ciencia de datos. Sin embargo, se considera que la ciencia de datos se basa más en datos y se centra en los resultados y objetivos comerciales. Es un estudio más orientado a la aplicación y la utilización de herramientas y técnicas. Sin embargo, existen ciertas superposiciones y similitudes en las áreas de investigación y herramientas, la ciencia de datos y la inteligencia artificial ciertamente no son lo mismo. Sería difícil incluso establecerlos como entidades de subconjunto o superconjunto. Se ven mejor como campos interdisciplinarios que aprovechan al máximo las incertidumbres.

Resumen

La ciencia de datos es LA palabra clave para todas las industrias desde hace bastantes años. En este artículo sobre Qué es un científico de datos , cubrimos mucho terreno en términos de conceptos y aspectos relacionados. El objetivo era ayudarlo a comprender qué es lo que realmente convierte a Data Scientist en el trabajo "top y de moda" del siglo XXI.
La discusión comenzó con una definición formal de ciencia de datos y cómo está marcando el comienzo del cuarto paradigma para abordar este flujo constante de datos. A continuación, abordamos brevemente las sutiles diferencias entre la ciencia de datos y la estadística junto con el punto de discordia entre los expertos de los dos campos. También presentamos una opinión honesta sobre todo lo que se necesita, en términos de habilidades técnicas y calificaciones educativas, para convertirse en un científico de datos. Claro, es genial ser uno, pero no es tan fácil como parece.
términos de habilidades técnicas
Junto con las habilidades, abordamos el  camino de aprendizaje para convertirnos en un científico de datos. En esta sección, cubrimos los conceptos fundamentales que uno debe conocer de técnicas avanzadas como Aprendizaje por Refuerzo, etc.
El mundo sufre una gran escasez de científicos de datos. Las mejores universidades han asumido este desafío para mejorar las habilidades de la fuerza laboral existente y la próxima generación. Discutimos algunos de los cursos que ofrecen estas universidades de todo el mundo. También hablamos sobre diferentes empresas que están contratando científicos de datos y con qué salarios.
En el tramo final, presentamos conceptos relacionados con  la Inteligencia Artificial. Es imperativo comprender cuán diferentes pero superpuestas son la ciencia de datos y la inteligencia artificial.
Con esto, esperamos que esté preparado para comenzar su viaje para convertirse en un científico de datos y contribuir. Si ya está trabajando en este espacio, el artículo tenía como objetivo desmitificar algunos términos de uso común y proporcionar una descripción general de alto nivel de la ciencia de datos.

No hay comentarios.:

Publicar un comentario

Dejanos tu comentario para seguir mejorando!

outbrain

Páginas