Blog

Keep up to date with the latest news

¿Qué es lo que hace un data engineer?

Existen múltiples definiciones para el puesto de data engineer o ingeniero de datos. Se lo asocia muchas veces al termino “data scientist” sin embargo, esta es una posición diferente. Se trata de una tarea más “oculta” o poco visible pero muy importante a la hora de desarrollar sistemas de información complejos, en especial los que requieren el uso de Big Data.
Los data engineer obtienen, preparan y “purifican” datos para luego poder ser procesados por los data scientist, quienes crean y entrenan modelos que extraen conocimientos sobre la problemática a trabajar a partir de datos, mediante herramientas de distinta índole, como por ejemplo, matemáticas o buisness knowledge.
Para poder establecer y entrenar el modelo, es necesario que antes, los data engineer se aseguren de definir e implementar una corriente de datos desde el inicio hasta su explotación de manera automatizada y controlada. Son especialistas en el mantenimiento, diseño y desarrollo de sistemas de procesamiento de información englobados en un proyecto de big data.
Podríamos decir que un data engineer es un especialista en el análisis de datos y es alguien esencial en cualquier compañía que tenga como eje de su trabajo el manejo de datos. También, se podría pensar como una persona que prepara los datos e información para que esta, luego pueda ser abordada por un data scientist quien luego aplicará tecnologías como inteligencia artificial y machine learning al conjunto de datos para obtener conclusiones, deducciones u otros fines.
 
Conocimientos fundamentales de un data engineer
El uso de tecnología avanzada es fundamental en el mundo de Big Data, en 1er lugar, todo data engineer debe ser un especialista en limpiar, validar y ordenar datos, para que estos lleguen de la manera más adecuada al cliente o usuario para su utilización.
Es muy importante que un ingeniero de datos, tenga un excelente manejo de bases de datos SQL (relacionales) y NoSQL (no relacionales). De esta manera obtiene los conocimientos técnicos para modelar datos de manera eficiente y le permite acceder a datos de origen que existan en este tipo de almacenamiento.
Támbién, suelen ser supports en la configuración de clusters, cores, memoria y varios parámetros de bajo nivel. Generalmente se utilizan motores de procesamiento de Big Data como Spark, Flink o Map Reduce, los cuales tienen un alto rendimiento y son muy populares en esta área.
 
Keywords y tecnologías fundamentales
El stack fundamental suele incluir a tecnologías de acceso de datos en tiempo real, generalmente herramientas de streaming, por ejemplo: Spark, Kafka, Structured Streaming y otros.
Linux suele ser el entorno de trabajo más habitual. Python, suele ser el lenguaje por excelencia para cualquier data engineer, el cual es utilizado para el análisis y gestión anticipada de datos junto al support de procesos. Por otro lado, también se utilizan otros lenguajes de programación orientados a objetos, para el tratamiento de datos. Los más frecuentes son: Java, Kotlin y Scala.  Se espera que un ingeniero de datos sepa utilizar metodologías agiles, como Scrum y también software de control de versiones como GIT.
Los data engineer suelen utilizar de manera diaria herramientas que les permitan trabajar  con bases de datos y modelado, como por ejemplo Cassandra o MongoDB. Los motores de indexación también son habituales, ej: Elastic Search o SolR.
Un plus que cada vez se vuelve más necesario, es el manejo de cloud services como Google Cloud, Azure o AWS, además, la experiencia en el desarrollo de apps cloud native, es un factor clave a la hora de potenciar el trabajo del data engineer.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.