¿Cómo empezar tu camino en la ciencia de datos?

--

Extraído de pexels.com

Son dos razones del porqué de este blog: en primer lugar será la forma en que gestione el conocimiento de lo que voy aprendiendo a diario. Segundo, pretendo brindar, a través de lo que he aprendido y el cómo lo he hecho algunas recomendaciones que si las hubiera recibido en un inicio me hubieran facilitado el camino para aprender más y mejor sobre data science.

Un punto de partida inicial es darle un sentido a “¿qué es la ciencia de datos?”, como lo describen en el artículo What is Data Science? A Beginner’s Guide To Data Science, la ciencia de datos es la puerta que abre el mundo de lo que antes llamábamos ciencia ficción en las películas y lo lleva más allá: lo hace realidad.

La base para lograrlo está intrínseca en el concepto y es el llamado nuevo oro del mundo: la información (data). Respecto a esto, hay dos problemas fundamentales que son foco de estudio y que han venido evolucionando año tras año. El primero es como tal tener la información, y esto incluye que exista y que se pueda administrar. A hoy, el mundo genera más 2.5 quintillones de bytes por día. Para hacerse a una imagen equivaldría a generar aproximadamente 12.5 trillones (12 ceros) de libros con un promedio de 250 hojas ¡por día!. El segundo es básicamente entender ¿Qué puedo hacer con la información? ¿Cómo transformarla para que sea de utilidad?

Para dar respuesta a estas dos problemáticas se han creado decenas de ramas y disciplinas que en el presente componen o acompañan los procesos de ciencia de datos: Computación en la Nube (Cloud Computing), Arquitectura de Información, Big Data, Minería de Datos, Estadística, Analítica Descriptiva, Analítica de Diagnóstico, Analítica Predictiva, Analítica Prescriptiva, Inteligencia Artificial, Machine Learning, Deep Learning, entre otras.

Abordar cada una de estas temáticas tomaría cientos de entradas de blogs y mucho tiempo. Por ahora, así como lo indica el título de este artículo, te propondré un camino (entre muchos que podrías tomar) para dar tus primeros pasos para convertirte en un Tim Burton del mundo real.

  1. Comprende qué podrías lograr:
    Al principio, cuando te llama la atención la ciencia de datos te basas en lo que viste o leíste en redes sociales o que alguna persona mencionó en una conversación.
    La primera recomendación es datéate: busca contenido de diversas fuentes como blogs, videos, películas, sigue expertos y referentes no solo en ciencia de datos, sino en tendencias de ciencia de datos aplicada a un área de tu interés.
    En mi caso, soy apasionado por la revolución de las startups y tiendo a seguir sus fundadores, sus redes y sus sitios web. Innovaciones de plataformas como Facebook, Uber, AirB&B, Youtube, Google pueden sumergirte en el presente de estas tecnologías.
    Recomendaría la serie documental “The Age of AI” de Youtube donde conocerás qué se está haciendo en diversas áreas de conocimiento con Ciencia de Datos e Inteligencia artificial.
  2. Aprende cómo funcionan los datos, cómo se gestionan: Aprende SQL
    La información generalmente se almacena en Bases de Datos. Las Bases de Datos (relacionales) son conjuntos de tablas que se relacionan entre sí por valores claves. Por ejemplo, si tuvieras un comercio electrónico de artículos de aseo podrías tener diversas tablas para administrar la información. Entre ellas, tendrías una tabla donde gestionas el detalle de los productos, una donde gestionas las facturas de las compras realizadas y otra donde gestionas los clientes. Si quisieras conocer qué productos ha comprado un cliente en específico durante el último mes deberías tomar información de las tres tablas al tiempo y relacionarlas entre sí. Ese es un trabajo que se te facilita enormemente si dominas los principios básicos de SQL.
    SQL o Structured Query Language es el lenguaje estándar para comunicarte y generar relaciones con bases las datos. Para aprender, recomiendo el curso “SQL for Data Science” dictado por Sadie Lawrence.
  3. Aprende cómo transformar los datos: Aprende Python
    Python es al día de hoy el quinto lenguaje de programación más usado en el mundo y adicional, uno de los más sencillos de aprender gracias a su sintaxis y la gran cantidad de documentación que existe para su uso. Adicional, posee distintas librerías y frameworks diseñados exclusivamente para ciencia de datos, procesos de automatización y modelos estadísticos y de Inteligencia Artificial.
    Con Python, más allá de la generación de relaciones entre tablas, podrás realizar procesos de limpieza de datos, transformar datos en gráficas para su interpretación, crear modelos matemáticos y estadísticos para realizar análisis profundos (entre muchas otras cosas más).
    Para aprender python, podrías iniciar con el curso “Programming for Everybody (Getting Started with Python)” desarrollado por el profesor Charles Severance (Chuck) o con el curso “2021 Complete Python Bootcamp From Zero to Hero in Python” de Jose Portilla
  4. Convierte los datos en información “consumible”: Aprende Power BI
    Trabajar con datos implica además de entenderlos hacerlos entender, de lo contrario no generarían valor. Una de las mejores formas de traducir los datos en algo que sea comprensible para un público en particular es generando visualizaciones y dashboards (Tableros de Mando). Y aunque puedes usar herramientas como Excel para hacer gráficas, o hacer tablas resumen con SQL o incluso aprender a usar librerías de visualización de datos como Matplot de Python, existen softwares creados principalmente para facilitar los procesos de visualización de información tales como Tableu, Qlik y la que recomendaría: Power BI. Esta última es actualmente la más empleada en el mundo empresarial tanto por su usabilidad como por su facilidad para realizar integraciones.
    Si quieres aprender Power BI puedes iniciar con el curso Power BI — Análisis de Datos y Business Intelligence de Javier Gómez
  5. Usa una metodología de aprendizaje:
    Cada persona puede encontrar su propia forma de aprender más rápida y mejor. Sin embargo, siempre recomendaría más allá de solo ver cursos implementar un componente práctico en cada tema que se esté abordando. Mi sugerencia como metodología la dividiría en tres puntos que se realizarían en paralelo:
    - Ver cursos cortos
    - Leer un artículo diario o cada dos días
    - Desarrollar proyectos preferiblemente con información real y que aporten a tu día a día, ya sea en procesos laborales o algo que quieras realizar para ti.

Si te gustó este artículo o tienes alguna retroalimentación déjame un comentario.

By: Cristian Restrepo
Data Science Passionate

--

--

Data 4 Dummies by Cristian Restrepo

Professional blog by Cristian Restrepo | Business & Data Science passionate | Data Engineer at Arkho