3 Tendencias Ocultas en el Cuadrante Mágico de Gartner de Herramientas de Integración de Datos 2022
La semana del 15 de agosto del 2022, Gartner publicó su "Cuadrante Mágico" (CM) del 2022 para herramientas de integración de datos. Tres de los socios comerciales de Diextra aparecen en el reporte de este año (AWS, Precisely y Qlik).
Desafortunadamente, muchas de las personas que consultan este tipo de documento no le dedican suficiente tiempo a leer el contenido completo del reporte y solo ven el gráfico del CM en sí. Quizás revisen algún detalle acerca de uno que otro proveedor, pero no mucho más de ahí. No obstante, en mi opinión, el contenido más interesante de este tipo de reporte son los comentarios del contexto del mercado y tendencias tecnológicas que aparecen al final del documento.
Como ya de inicio cumplí con la expectativa generalizada de incluir el gráfico de este CM, voy a proceder a resaltar tres temas que me parecieron interesantes y que están dispersos en diversos párrafos de las secciones tituladas Context y Market Overview del documento de Gartner. Los párrafos extraídos directamente del documento, traducidos con la ayuda de Google Translate y revisados por quien escribe, aparecen más abajo, centrados y entre comillas. También me he permitido subrayar algunas frases que entiendo que merecen ser enfatizadas. Si desea leer el MQ original, puede solicitarlo siguiendo este enlace.
1. Los líderes del mercado continúan perdiendo terreno frente a los proveedores más pequeños.
"Los cinco proveedores principales en este mercado (según su participación de mercado) tenían una participación de mercado colectiva del 71 % en 2017. Este número ha disminuido constantemente a lo largo de los años, y en 2021, la cuota de mercado colectiva era sólo del 52%. Se puede ver una tendencia similar cuando se analizan los tres principales o incluso los 10 principales proveedores. Una de las razones principales de esto es que los líderes en cuota de mercado, como Informatica y Talend, están cediendo cuota de mercado al centrar sus esfuerzos de crecimiento principalmente en sus productos iPaaS."
"Los proveedores que ganan participación de mercado tienen un tema común: se enfocan en el liderazgo en estilos específicos de integración de datos, como la virtualización de datos o la replicación de datos, y/o se enfocan en la integración de datos entregada como un servicio en la nube nativo y administrado".... "la disminución gradual en la participación de mercado para los proveedores más grandes y establecidos muestra que necesitarán encontrar el equilibrio adecuado entre las soluciones de plataforma que lo abarcan todo y las soluciones puntuales de fácil acceso para mantener el ritmo."
2. La automatización de la integración de datos es un diferenciador importante.
"Los líderes de datos y análisis se están dando cuenta de que no pueden seguir invirtiendo en la integración manual de datos; necesitan soporte de automatización. Los equipos de integración de datos (en términos de miembros individuales) se contraen constantemente: la cantidad promedio de personas en los equipos es inferior a 10 (según la evidencia anecdótica de nuestras investigaciones). Y mientras el tamaño de los equipos se reduce, la cantidad de datos y, por lo tanto, la cantidad de requisitos de integración de datos crece exponencialmente. Esta brecha entre la demanda y la oferta apunta hacia un enfoque urgente en la automatización y el aumento" (de capacidades de inteligencia artificial aplicadas a la integración de datos).
"Una tendencia interesante de nuestras consultas reveló que un número cada vez mayor de líderes de datos y análisis están investigando y adoptando herramientas que pueden admitir la ingesta y replicación de datos. Este aumento se debe a que las organizaciones buscan ingerir o replicar los datos de sus DBMS operativos en almacenes de datos en la nube. Esta tarea a menudo se denomina automatización del almacén de datos y se considera un diferenciador por parte de las organizaciones que evalúan las herramientas"
3. FinOps hace su debut en el contexto de integración de datos.
"Esta es la primera vez que Gartner presenta FinOps como una capacidad clave para evaluar proveedores en esta investigación del Cuadrante Mágico. Las herramientas de integración de datos deben rastrear, predecir y adelantarse al costo general asociado con las cargas de trabajo de integración de la nube a medida que los equipos de análisis y datos se distribuyen en varios dominios y se colocan cada vez más en varias líneas de negocios. Esto hace que sea importante que los líderes de datos y análisis tengan la capacidad de asociar el costo de ejecutar cargas de trabajo de integración de datos con el valor asociado con ellas y tener control sobre la asignación de capacidad de procesamiento a las cargas de trabajo que consideren importantes mediante un análisis óptimo del rendimiento y los metadatos del sistema y la capacidad de asociar valor a costo."
En conclusión, está claro que jugadores que se han insertado recientemente en el mercado de integración de datos se están apalancando con efectividad en los cambios del entorno para lograr cambiar las reglas de juego - especialmente al agilizar la migración hacia servicios de DWH / DL provistos en la nube. Por su parte, los jugadores tradicionales tienen por delante grandes retos para lograr responder apropiadamente a estos cambios, debido principalmente a que la mayoría provee soluciones basadas en esquemas tradicionales de ETL, las cuales requieren servidores intermedios para realizar transformaciones de datos que no escalan con facilidad.
Además, las soluciones tradicionales no tienen capacidades nativas de replicación que estén ámpliamente probadas, sean fáciles de usar, confiables, de un alto rendimiento, y permitan "empujar" automáticamente las transformaciones y cambios en la estructura de los datos en las fuentes hacia los proveedores de servicios de DWH / DL en alguna nube. Algo similar sucedió en el CM de BI hace unos 7 años, cuando Cognos, Business Objects, Microstrategy, OBI y otras soluciones similares todavía aparecían en el cuadrante de líderes. Luego, en el 2016 salió el CM de BI en el que solo Microsoft, Qlik y Tableau aparecian en ese cuadrante. Me atrevo a sugerir que algo similar ocurrirá en este CM en el futuro próximo.
Por otro lado, los recursos humanos especializados en esta disciplina son cada vez más escasos y costosos, y todo el mundo se está peleando por ellos. La disminución en el número de miembros de equipos de integración de datos que muestra Gartner, no se debe a que las empresas e instituciones ya no necesitan este perfil de personal: es que cada vez hay más demanda y menos oferta. Por lo tanto, es imperativo aumentar la productividad de estos equipos de trabajo, incorporando herramientas de integración de nueva generación que les faciliten sacar adelante con rapidez nuevos entregables, o realizar cambios a los activos de integración existentes.
Para lograr un aumento significativo en la productividad de los equipos de integración de datos, en adición a capacidades nativas de generación de SQL para DDL y DML, se requieren herramientas que puedan analizar los datos y sugerir relaciones entre diferentes campos, detectar desviaciones en los mismos (tanto "data drift" como "schema drift"), y también aportar sugerencias en modelamiento de datos para fines de análisis. El uso de "grafos de conocimiento" basados en los estándares de la web semántica (p.e., RDF, SPARQL, SHACL, etc.) y las capacidades deductivas de estas tecnologías, generalmente basadas en lógica de primer orden, tienen mucho que aportar en este sentido, pues permiten describir formalmente la organización - incluyendo sus reglas de negocios y otra metadata. Si tiene curiosidad por experimentar una demostración guiada e interactiva de una herramienta de automatización de almacenes de datos históricos, que si bien no cumple con todos estos objetivos, si es una muestra importante de lo que es posible lograr usando la tecnología que existe actualmente, solo pulse aquí y siga las instrucciones.
Además los "cargos sorpresa" por la ejecución de este tipo de carga de trabajo en la nube deben de ser reducidos o eliminados, pero para lograrlo se requerirá de una combinación de técnicas de aprendizaje automático con modelos matemáticos de optimización que asignen las diversas cargas de trabajo a recursos dinámicos en la nube. Es posible extrapolar que en el futuro estas herramientas de integración podrán ser capaces de aprender del rendimiento de ejecuciones pasadas, informadas con metadata acerca de volúmenes de datos cambiantes, y también utilizar la situación de carga puntual en el proveedor de nube, para al menos sugerir el tipo y características del cluster virtual en el que debería de ejecutarse cada carga de trabajo. Estas herramientas de integración con inteligencia aumentada también podría sugerir el uso de servicios "serverless", tal vez cuando el valor para el negocio de esta carga de trabajo no sea muy alto y quizás pueda satisfacerse en un mayor período de espera.
Gracias por haber leído hasta aquí. Espero que estos comentarios le hayan sido de alguna utilidad.
Comments