[quads id=1]

Hoy terminó Ready for IT, el evento organizado por DG Consultants, en el que convergieron tecnología e innovación alrededor de tres temas principales: Nube, Ciberseguridad y Data. Este encuentro “se diseñó como un espacio de prospección, análisis tecnológico y discusiones sobre transformación digital, nube, datos, IA, IoT, blockchain, ciberseguridad entre otros temas” reseñaron los organizadores.

Uno de los temas abordados fue el manejo de los datos. En este sentido, el blog de Ready for IT detalla 5 recomendaciones que “ayudan a las empresas a lidiar con la explosión de volúmenes, formatos y geografía de datos a través de la creación de un Data Lake (Lago de datos), que se basa en un principio simple: reunir datos útiles en un único repositorio”.

Para iniciar un Data Lake sugieren a las empresas realizar algunas preguntas previas evitando limitar sus respuestas a la mera visión de reducir el costo de almacenamiento: ¿Cuál es su propósito?, ¿Lo ubicamos en una nueva arquitectura o en la nube? ¿Cuáles son los requisitos reglamentarios y / o comerciales?

Una vez que se han respondido esas interrogantes plantean 5 sugerencias que reproducimos a continuación:

1 – Diferenciar Data Lake y base de datos.

A veces, se considera al Data Lake como una forma de crear una base de datos a un costo reducido y lleva varios meses darse cuenta de que el resultado es decepcionante, porque un Data Lake no se comporta como una base de datos, por lo que no debe considerarse como tal.

“El Data Lake no es una solución mágica, requiere recursos y habilidades que la compañía debe proporcionar, y requiere una alineación de los medios desplegados según las expectativas de la compañía.Reflexionar sobre la necesidad de un Data Lake es esencial antes de comenzar un proyecto” señalan.

2 – Alinear los recursos adecuados

Un proyecto de Data Lake generalmente está lleno de ambiciones, pero los recursos necesarios para la implementación aún son necesarios. ¡Y todo lo que se construye tiene un costo! Las empresas no siempre comprenden la cantidad de recursos, conocimientos y experiencias que necesitarán.

Estos recursos no solo son financieros, tienen un costo en tiempo y eficiencia. Ya sea que se trate de capacitar al personal existente o de reclutar personas con las habilidades adecuadas, la cuestión del conocimiento es esencial porque tiene un impacto real en la duración y en el éxito de un Data Lake.

3 – Comience con un problema de negocio real

Comience implementando su Data Lake para resolver un problema empresarial real. Es más probable que este tipo de proyecto tenga resultados positivos, rápidamente, y proporcione información que satisfaga a la dirección comercial y a la alta dirección.

El efecto psicológico buscado también es importante. Los equipos de ventas involucrados se involucran más rápido y más fácilmente en los proyectos que les conciernen. También están más dispuestos a involucrarse con el trabajo de datos.

Y sobre todo se mantienen más concentrados.

4 – Dar prioridad a la seguridad.

Detrás del Data Lake, no solo hay almacenamiento de datos, también hay administración de datos, y la organización que lo implementa, como la que lo opera, incluso si es la misma, debe garantizar la seguridad de los datos que se les confían. Un proyecto de Data Lake es, en esencia, un proyecto de computadora, sujeto a los mismos riesgos, ya sea intrusión, robo, destrucción de datos, al riesgo ubicuo de error humano.

“Si las tecnologías parecen contribuir constantemente a la seguridad y la gobernanza de los datos, que ahora respaldan el principal valor agregado para la empresa, en el otro lado de la barrera, el peligro de los delitos informáticos evoluciona al mismo ritmo, y es incluso más receptivo que la empresa y sus socios. El riesgo es real y se centra en el corazón del negocio … Debe prestarse una atención constante a la seguridad del Data Lake, a sus datos y flujos.Como mínimo, preste especial atención a la autenticación, autorización y cifrado de los usuarios en reposo como en movimiento” enfatizan.

5 – Considerar el ciclo de vida de la gestión de datos.

El Data Lake no es un lugar mágico, ni el lugar de trabajo reservado para la ciencia de datos. Requiere considerar todo el ciclo de vida de la gestión de datos, incluida la recopilación y el almacenamiento de datos, la carga en el almacenamiento intermedio, la realización de controles de calidad, la limpieza y el enriquecimiento de los datos, la gestión y generación de informes. El Data Lake se puede considerar un proyecto separado.

Comience con algo conocido y con un tamaño razonable, antes de abordar fuentes no estructuradas, datos de sensores, datos de transmisión por secuencias. etc.

Este es probablemente el principal consejo que se puede dar a los portadores de un proyecto de Data Lake, para que se centre en la calidad de la toma de decisiones, el objetivo final de cualquier proyecto de datos.