Header Ads Widget

Ticker

6/recent/ticker-posts

11+ Killer Open Data Sources y herramientas de visualización gratuitas


 Los datos hacen girar al mundo. La capacidad de extraer, almacenar, limpiar, entrenar, mover, triturar y extraer datos puede significar el éxito de una empresa. Aquellos que pueden identificar correlaciones y, lo que es más importante, las causas son pasos por encima del resto. Si a esto le sumamos velocidades de procesamiento cada vez mayores, la analítica será aún más accesible.

Si bien el análisis de datos internos es importante, también hay un lugar para los datos disponibles públicamente o los datos abiertos . Hay conjuntos de datos literalmente gratuitos para todo, desde música hasta señales de tráfico. Educación para la energía y el entretenimiento. Con datos abiertos se pueden visualizar las tendencias climáticas o descubrir cómo interactúa el mundo a través de perspectivas sociales y políticas. Los datos abiertos también son útiles para extraer conjuntos de datos internos para encontrar relevancia en un contexto más amplio.

Hay literalmente cientos (¿no, miles?) De conjuntos de datos abiertos para los entusiastas de los datos. Pero con tantos para elegir, ¿cuáles son especialmente útiles? ¡No temas, amigo lector! A continuación, presentamos una lista seleccionada de algunos de los conjuntos de datos más interesantes que existen junto con una lista completa de herramientas de visualización gratuitas para usar en su próximo proyecto.

Conjuntos de datos abiertos y recursos útiles

Hay tantas fuentes de datos, conjuntos de datos y herramientas de datos que pueden resultar abrumadores rápidamente. Por lo tanto, destacaremos un puñado de fuentes de datos únicas, conclusiones y sugerencias útiles. Estas fuentes de datos son especialmente útiles para cualquier persona en el ámbito del aprendizaje automático a quien no le importe trabajar con grandes cantidades de datos.

Digamos, por ejemplo, que desea que se utilice la traducción en tiempo real de las noticias del mundo en 65 idiomas para el análisis de sentimientos en referencia a la ubicación geográfica. O tal vez los datos federales sobre las tasas de graduación universitaria de bajos ingresos superpuestos con los montos de financiación de la campaña. O tal vez uno simplemente tiene un interés único e insaciable por saber cuántas dependencias hay para Kubernetes en Github. Bueno, amigo mío, podría sugerir algunos conjuntos de datos abiertos. A continuación, se muestran algunos hallazgos únicos y gratuitos en la web:

1: Aprendizaje profundo4J

Deeplearning4J ofrece potentes cálculos de código abierto con redes neuronales y otras ventajas de aprendizaje automático para Java. Cuenta con un impresionante archivo de conjuntos de datos para procesamiento de lenguaje natural, reconocimiento facial y otros casos de uso de detección de imágenes. Advertencia: esto se vuelve técnico rápidamente y se usa mejor para trabajos orientados al aprendizaje automático .

2: Bibliotecas.io

Librarios.io es otro impresionante proyecto de código abierto. Realizan un seguimiento de "proyectos únicos de código abierto, 25 millones de repositorios y 85 millones de interdependencias entre ellos". Así es, dependencias entre proyectos de código abierto. Es una descarga de casi 6 GB, así que te han advertido. Si está interesado en las comunidades de desarrolladores o en el mantenimiento de software de código abierto específicamente, este es un gran activo. Tener este nivel de conocimiento puede permitir un mejor descubrimiento, uso e incluso mejorar las contribuciones y el soporte para varios proyectos. Eso significa que este tipo de datos abiertos se podría aprovechar para rastrear comportamientos en toda la comunidad de software de código abierto en general.

3: Repositorio de aprendizaje automático de UC Irvine

Este es otro recurso para casos de uso de aprendizaje automático. UCI mantiene 379 conjuntos de datos especializados sobre todo, desde la calidad del vino, las flores, la detección de automóviles, los incendios forestales, entre muchas otras áreas temáticas. ¿Quien sabe? Una desventaja potencial es que algunos de estos datos gratuitos pueden estar un poco obsoletos: muchos conjuntos de datos se donaron en los años 90 o mediados de los 2000.

4: Mundo de datos

DataWorld no solo facilita la búsqueda de conjuntos de datos, sino que también tiene una gran función social. Los desarrolladores pueden hacer que sus datos sean internos, compartirlos con un equipo interno o externo, o incluso hacer que sus datos estén abiertos al mundo. Sin embargo, lo más convincente es poder administrar el conjunto de datos a lo largo del tiempo y trabajar con otros desarrolladores para intercambiar ideas o crear combinaciones ordenadas.

5: los datos son plurales

Data is Plural es un boletín semanal enviado por Jeremy Singer-Vine . Básicamente se trata de algunas fuentes de datos cada semana sobre un tema nuevo e interesante. Consulte la hoja de cálculo para obtener la lista completa de temas, como metadatos musicales, cambio climático, datos de tráfico y mucho más.

6: GDELT

GDelt es otro proyecto asombroso. Es "uno de los conjuntos de datos espacio-temporales de acceso abierto más grandes que existen y que amplía los límites del estudio de" big data "de la sociedad humana global". GDELT es muy interesante porque permite a cualquiera visualizar cosas como manifestantes, poblaciones de personas desplazadas o incluso la cantidad de personas muertas debido a cosas como desastres naturales, enfermedades o epidemias. Incluso hay una herramienta de visualización y conjuntos de datos de muestra para ayudar a poner en marcha las ideas. También se han asociado con BigQuery para facilitar el trabajo con los datos.

La lista expansiva de conjuntos de datos abiertos

Aquí hay otros volcados masivos de conjuntos de datos que vale la pena mencionar. Si no puede encontrarlo aquí, es posible que no exista:

  • Conjuntos de datos públicos de Enigma : sitio realmente hermoso con una interfaz de usuario fácil de usar. Su herramienta de visualización de datos facilita la verificación de su amplia colección de conjuntos de datos.
  • Kaggle : Kaggle está en el negocio de los científicos de datos en crecimiento. Tienen algunas competencias divertidas, herramientas educativas y una gran cantidad de conjuntos de datos gratuitos para explorar.
  • El subreddit de conjuntos de datos: excelente subreddit para aquellos que solicitan conjuntos de datos o búsquedas ingeniosas en las redes.
  • Impresionantes conjuntos de datos públicos en Github : Repositorio ingenioso que contiene una lista de, lo adivinaste, conjuntos de datos impresionantes. Aquí hay algo de superposición con otros repositorios, pero vale la pena incluirlo, ya que divide las cosas en categorías muy bien.
  • Big ML : más herramientas para el aprendizaje automático.
  • Microsoft R Network : estos son conjuntos de datos de muestra para aquellos interesados ​​en la computación estadística y el aprendizaje automático. Si eres un desarrollador de R, esto es para ti.
  • Red de datos abiertos : lo hace Socrata, una organización que trabaja con datos gubernamentales. Si está interesado en datos gubernamentales, esta es una manera fácil de buscar conjuntos de datos relacionados o visualizaciones de datos.
  • Google : excelente forma de jugar con los datos y analizarlos rápidamente. También es útil si desea incorporar esto en su propio trabajo.
  • AWS : si ya está en AWS, aquí hay conjuntos de datos para todo, desde GIS hasta aprendizaje automático.
  • Conjuntos de datos para minería de datos y ciencia de datos en KD Nuggets: esta es otra lista de enlaces expansiva, pero se centra en datos gubernamentales y otros conjuntos de datos bastante oscuros.

Herramientas de visualización:

Una vez que se crea un conjunto de datos, ¿cuál es la forma más fácil de crear una visualización de forma rápida, precisa y gratuita? Después de todo, desplazarse por una tabla interminable no es tan útil. Ser capaz de captar un concepto muy rápidamente es el nombre del juego y la visualización es una excelente manera de transmitir el mensaje. Más bien, es necesario generar visualizaciones precisas y consumibles para pintar una historia, resolver un problema o conocer posibles soluciones.

Si bien nuestros conjuntos de datos están dirigidos a aquellos que no le temen a las palabras "aprendizaje automático", estas herramientas de visualización son mucho más útiles . Hemos seleccionado la siguiente lista de herramientas que se ajustan a los criterios de poder:

  • Cargue un archivo CSV o un enlace a una hoja de Google rápidamente
  • Obtenga una visualización sin escribir una línea de código
  • Hazlo gratis

Hay muchas ocasiones en las que un analista de datos debe obtener rápidamente un archivo de datos en una herramienta y tomar un fragmento de un gráfico para hacer una captura de pantalla o referencia. Si bien otros paquetes pueden ser más detallados, aquí no se encuentran herramientas o complementos JS. Estas herramientas de visualización de código abierto gratuitas son excelentes para probar rápidamente un conjunto de datos antes de dedicarle tiempo.

Gráficos RAW

Pegue, cargue, vincule a cualquier conjunto de datos o extraiga de ejemplos literalmente. Elija un tipo de gráfico. Especifique lo que le gustaría en el eje X, Y o Z y ¡listo! Literalmente así de fácil. Las visualizaciones no son las más divertidas, pero la información se transmite bien. Aquí hay una captura de pantalla rápida de un mapa de árbol que visualiza los jonrones del equipo de béisbol desde 1871 hasta el presente:

Raw Graphics.io visualizando jonrones totales del equipo de béisbol

Tableau Public

Tableau por sí solo es una herramienta muy sólida. A veces demasiado robusto para el usuario medio. Sin embargo, Tableau Public es sorprendentemente fácil de usar. Es una descarga que no es la mejor experiencia, sin embargo, trabajar con los datos es realmente fácil. Los primeros 10 GB son gratuitos.

Una captura de pantalla de la interfaz:

Visualización de Tableau

Y otra captura de pantalla del mismo conjunto de datos de la MLB que analiza equipos a jonrones. Un poco más interactivo y agradable de ver:

Tablas dinámicas de Google

Fusion Tables es una aplicación experimental de Google, pero hace el trabajo muy rápido. También se incorpora muy bien con Google Sheets y otros conjuntos de datos. Muy recomendable. Aquí hay una captura de pantalla de la interfaz y los mismos datos de béisbol de jonrones a equipos:

Y otra forma de visualizar datos. Hacer gráficos es muy fácil. Es más difícil controlar los tipos de gráficos pero, no obstante, hace el trabajo:

Tablas dinámicas de Google

Plot.ly

Plot.ly es otra herramienta de visualización gratuita, sin embargo, la interfaz de usuario puede ser algo confusa a veces. Aunque las herramientas anteriores son más útiles, Plot.ly es una excelente manera de combinar datos rápidamente en instancias con conjuntos de datos más pequeños .

Plot.ly es bueno con pequeños conjuntos de datos

Chartblocks

Chartblocks es otra forma súper rápida de visualizar un CSV o un conjunto de datos. También hay un excelente nivel gratuito:

 

Chartblocks: visualizaciones de datos rápidas

Pensamientos finales

¡Y ahí lo tienes! Una gran cantidad de datos excelentes para comenzar y luego algunas de las herramientas más fáciles y gratuitas de usar para visualizar las cosas rápidamente. ¿¡A qué esperas ahora!? ¡¡Sube algunos datos !!

Publicar un comentario

0 Comentarios