Las Herramientas ETL

0

Las empresas más importantes en el sector de los sistemas de información deciden, a mediados de los 90, invertir y desarrollar sus propias herramientas. Empresas como Informativa, IBM, SAS u Oracle empiezan a lanzar herramientas potentes orientadas al desarrollo y diseño de procesos ETL sin necesitar específicamente programas en código. De este modo, nacen Informativa powerCenter, ODI (Oracle Data Integrator), IBM Datastage o SAS Data Integrator.

Las herramientas ETL documentan cómo los datos son transformados (si lo son) entre el origen y el destino, almacenando la información en un catálogo propio de metadatos. Estos metadatos los intercambian con otras aplicaciones que puedan necesitarlos y administran todos los procesos y ejecuciones de la ETL: log de errores, planificación de la transportación de datos, log de cambios y estadísticas asociadas a los procesos de movimientos de datos.

Las herramientas ETL permiten diseñar, administrar y controlar todos los procesos del entorno ETL.

Ejemplos de herramientas ETL OpenSource son KETL, Talend, Jaspersoft ETL, Scriptella, y la herramienta OpenSource por excelencia, Kettle (Pentaho Data Integrator).

Las ventajas de estas herramientas serían las siguientes:

  • Entorno intuitivo y visual: al permitir seguir y diseñar el flujo y transformación de datos de este modo, se incrementa la velocidad de desarrollo de los procesos.
  • Agilidad en la depuración de errores de desarrollo.
  • Mantenimiento: la interfaz gráfica de las herramientas hace más sencillas las tareas de mantenimiento.
  • Operaciones y capacidades de administración: la administración de errores tiene lugar mediante logs y estadísticas de ejecución.
  • Conectividad: estas herramientas hacen más fácil la conexión a los distintos sistemas de origen. Bases de datos, ficheros XML, páginas web, etc.
  • Manejo de metadatos y modelos: pueden haberse creado por herramientas externas o por la propia herramienta.
  • Planificación global de conjuntos de procesos: permiten la programación en tiempo real o batch, administración de excepciones o lanzamiento de eventos disparadores entre otras cosas.
  • Interfaces con sistemas Frontoffice.
  • Interfaces de datos con sistemas externos: envío de información a proveedores, clientes, recepción, proceso e integración de la información que se recibe.
  • Capacidades SOA: es la arquitectura orientada a servicios, que establece una estructura de diseño para integrar aplicaciones y que permite a las organizaciones o compañías unir sus objetivos de negocio en cuanto a flexibilidad de integración con alineación directa a los procesos de negocio, con la infraestructura TI y con sistemas legados. Esto también permite reducir los costes de implementación, adaptación rápida frente a los cambios y reacción ágil ante la competitividad e innovación de los servicios a clientes. Todo esto se da gracias a que las nuevas tecnologías combinan fácilmente con aplicaciones independientes, permitiendo de este modo que los componentes del proceso se puedan coordinar e integrar de modo efectivo y rápido.
  • La descentralización del control de la ejecución y de todos los procesos.

Las herramientas ETL pueden ser útiles para diferentes propósitos y no únicamente para entornos Data Warehousing o en la construcción de un Data WareHouse, como por ejemplo:

  • Tareas de Bases de datos: se usan para consolidar, sincronizar y migrar bases de datos operativas.
  • Migración de datos en distintas aplicaciones debido a cambios de versión o cambio de aplicativos.
  • Sincronización entre diferentes sistemas operacionales.
  • Consolidación de datos: los sistemas con volúmenes grandes de datos se consolidan en sistemas paralelos para procesos de borrado en los sistemas originales o para mantener así históricos.
  • Interfases de datos con sistemas externos: envío de información a proveedores y clientes. Recepción, proceso e integración de la información recibida.
  • Interfases con sistemas Frontoffice: interfaces de subida y bajada con sistemas de venta.
  • Otros: preparación de procesos masivos como newsletter o mailings, actualización de usuarios a sistemas paralelos, etc.

Las herramientas ETL han ido evolucionando y ahora incluyen más funcionalidades propias de una herramienta de integración de datos. Podemos destacar las siguientes:

  • Servicios de entrega/acceso de datos (mediante conectores o adaptadores).
  • Gestión de servicios.
  • Data profiling.
  • Data quality.
  • Procesos operacionales.
  • Servicios de transformación: CDC, SCD, validación, agregación.
  • Servicios de acceso a tiempo real.
  • Extract, Transform and Load (ETL).
  • Enterprise Information Integration (EII).
  • Enterprise Application Integration (EAI).
  • Capa de transporte de datos.
  • Gestión de metadatos.

Por otro lado, para mejorar el rendimiento de los procesos ETL en grandes volúmenes de datos se ha desarrollado en el software ETL la aplicación de procesamiento paralelo. Existen tres tipos de paralelismos que se pueden implementar en las aplicaciones.

Estos son:

  • De datos: se divide un único archivo secuencial en pequeños archivos de datos para así proporcionar acceso paralelo.
  • De segmentación (pipeline): permite el funcionamiento simultáneo de diversos componentes del mismo flujo de datos.
  • De componente: permite el funcionamiento simultáneo de múltiples procesos en distintos flujos de datos en el mismo puesto de trabajo.

Estos tres tipos de paralelismo pueden combinarse para realizar una misma operación ETL.

Es necesario que en un sistema de ETL se puedan detener ciertos datos hasta que todas las fuentes estén sincronizadas. También cuando un almacén de datos debe ser actualizado con los contenidos en un sistema de origen, se necesitan establecer puntos de actualización y sincronización. Las múltiples y distintas bases de datos de origen tienen distintos ciclos de actualización (unas pueden actualizarse cada pocos minutos y otras pueden tardar semanas o días). La dificultad reside en asegurar que los datos que se cargan son relativamente consistentes.

Ingeniera Multimedia en la Universitat Oberta de Catalunya, mención en Comunicación Visual y Creatividad. Programadora web, experta en marketing digital, community management y SEO.

Compartir

About Author

Ingeniera Multimedia en la Universitat Oberta de Catalunya, mención en Comunicación Visual y Creatividad. Programadora web, experta en marketing digital, community management y SEO.

Comments are closed.