Calidad del Dato. El Gobierno del Dato y Transformación Digital - Parte V

El Gobierno del Dato y Transformación Digital - Parte V

Esta es la quinta entrega del ciclo El Gobierno del Dato y Transformación Digital. Escritos conjuntamente por Remedios López Pajares y Miquel Bonet López, a lo largo de cada capítulo, nos irán explicando cómo tener una visión clara sobre qué buenas prácticas aplicar en los diferentes contextos en los que manejamos datos y las ventajas que aportan al desarrollo de nuestros proyectos.

¿Por qué nos tenemos que preocupar de la calidad del dato?

Por lo general, no es difícil en una compañía que se esté de acuerdo en que tener una buena calidad de datos es bueno para la empresa. A esto se une que la falta de confianza en los datos por parte de los ejecutivos y comerciales se cita comúnmente entre los principales impedimentos para el uso de la inteligencia empresarial y las herramientas analíticas. Una buena calidad del dato puede expandir el uso de estas prácticas y de esta forma mejorar la toma de decisiones en las organizaciones.

Principio GIGO: Garbage In, Garbage Out

La calidad de los datos se parece a la salud humana. Todos estamos de acuerdo en que en general es importante para nuestra salud el comer bien y hacer ejercicio. Sin embargo, el determinar con precisión cómo cualquier elemento de nuestra dieta y el ejercicio pueden afectar a nuestra salud es terriblemente difícil. De la misma manera, probar con precisión cómo la calidad de cualquier elemento de nuestros datos puede afectar nuestro negocio también es tremendamente complicado.

Gartner
 
«En el ámbito de las aplicaciones empresariales, existe la denominada Regla 1-10-100, la cual viene a decir que cuesta como máximo 1 euro verificar un registro en su momento de entrada, 10 euros limpiarlo y de duplicarlo y 100 euros hacer frente a los problemas si no se hace nada y comienzan a aparecer las consecuencias de los errores y sus ramificaciones»

- Gartner (Octubre 2011), Measuring the Business Value of Data Quality -

 

 

Generalmente, una compañía está formada por un mínimo de 5 áreas funcionales básicas: Dirección, Administración, Ventas, Producción y Contabilidad y finanzas. Ejemplos sobre cómo disponer de datos de calidad ayuda a cada una de estas áreas de la compañía son:

Áreas básicas

Dirección Necesita medir la consecución de los objetivos estratégicos de negocio y el éxito de las estrategias definidas. Sin calidad en los datos que analizan, es muy probable que estos presenten una foto de la compañía poco alineada con la realidad, con lo que las decisiones que se tomen pueden tener un impacto no deseado.
Administración Realiza toda una serie de funciones cross que permiten el desarrollo normal de la operativa del resto de departamentos. La calidad de los datos puede afectar desde al incumplimiento regulatorio de normativas como la GDPR al tratar los datos, a la mejora de la comunicación con los clientes, proveedores, etc.
Ventas Tiene como principal objetivo es aumentar los beneficios de la compañía, ya sea aumentando el volumen de ventas o el margen conseguido en cada una de ellas. Para hacerlo es clave conocer muy bien al cliente, y el disponer de una visión única y de calidad permitirá mejorar la eficacia de las acciones comerciales, la captación de clientes y las acciones de Cross-Selling y Up-Selling. Una mala calidad en los datos de cliente dará una visión equivocada del perfil de los clientes y todas las acciones comerciales se realizarán bajo premisas basadas en datos erróneos.
Producción La operativa del día a día puede quedar impactada por una mala calidad de los datos. Ya sea en las dificultades a la hora de mejorar los procesos propios de la compañía, detectar puntos críticos que acostumbran a generar sobre costes o el tiempo dedicado a generar informes con los datos y corregir errores.
Contabilidad y Finanzas Departamento en el que uno de los aspectos clave es el control de los costes. Para algunas compañías el fraude es una realidad que tiene un coste elevado asociado, con una buena calidad de datos es posible mejorar la gestión del fraude detectándolo de manera más eficiente.

El estudio de la calidad de los datos nos permite, entre otras cosas:

  • Conocer la información disponible en cada una de las fuentes de datos
  • Conocer si dicha información concuerda con la idea que tenemos sobre su contenido
  • Descubrir el ciclo de vida de los datos en los sistemas y las diferentes áreas de negocio
  • Disponer de datos de calidad, lo cual supone una ventaja que permite a las empresas desmarcarse de la competencia
  • Completar y Definir los modelos de Integración
  • Como complemento a otro tipo de proyectos, como pueden ser proyectos sobre el gobierno de datos maestros

¿Cómo mido y defino la calidad de mis datos?

Muchas veces a la complejidad de este tipo de proyectos no radica tanto en la complejidad técnica sino en la complejidad dentro de las dinámicas entre departamentos, y en el que nadie quiera asumir que sus datos están mal.

Lograr una buena calidad del dato es una tarea compleja y multidisciplinar, debido a la variedad de tipos de datos, departamentos y sistemas de información que pueden estar implicados. Asimismo, la calidad se define de forma diferente dependiendo a quién se le consulte en la compañía, ya que el no venir informado por ejemplo el sexo de un cliente a nivel administrativo no puede suponer un problema pero sí para el departamento de marketing. Por ello, un punto de partida es el definir cuáles son las características que definen que los datos que manejo disponen de la calidad adecuada.

El mayor consenso sobre dichas características parte de las clasificaciones que han realizado organizaciones como la Data Management Association (DAMA) o Data Warehousing Institute (TDWI), llegando a un total de 6 dimensiones fundamentales para la gestión de la calidad del dato:

Criterios de Calidad del Dato

Completitud: el grado en el que todos los atributos del dato están presentes. Conformidad: los datos deben estar en un formato estándar y legible.
Precisión / Exactitud: si los datos no son precisos, estos no pueden ser utilizados. En este sentido, para detectar si estos son precisos, se compara el dato con una fuente de referencia. Consistencia: al hacer el cruce de información con los registros, se debe evitar la información contradictoria, es decir, los datos serán siempre los mismos.
Integridad: otra dimensión de calidad importante radica en el hecho de saber si toda la información relevante de un registro está presente de forma que se pueda utilizar. Unicidad: es importante saber si se tiene la misma información en formatos iguales o similares dentro de la fuente de información.

Cuando hablamos de Calidad hablamos de Gobierno del dato

La gestión de la calidad del dato depende de la estrategia de gestión del dato empresarial, la cual responde al por qué la organización quiere mejorar la calidad de los datos.

  • ¿Cómo nos aseguramos que la estrategia sobre la calidad es la adecuada sobre los datos que maneja la compañía?. ¿Cómo medimos la calidad de los datos?
  • ¿Quiénes serán los responsables de los datos?. ¿Cómo se tomarán las decisiones?
  • ¿Qué políticas, procesos y órganos de gobierno estableceremos para garantizar el acceso a datos de calidad, de manera transversal a toda la organización?
  • ¿Cómo medimos el éxito del programa?. ¿Cómo aseguramos una mejora continua?

Gobierno del Dato y Management

Y es por ello que a la hora de implementar proyectos de Calidad del Dato con garantía de éxito, es importante partir de unas bases metodológicas. Dichas bases se pueden resumir sobre tres bloques:

Descubrir

1. Identificar Sponsors.
2. Identificar alcance.
3. Identificar participantes.
4. Realizar entrevistas.
5. Analizar resultados.
6. Establecer conclusiones y estado futuro deseado.
7. Chequear los resultados con el órgano de Gobierno del Dato.

Diseñar

1. Visión, Metas y Objetivos del Programa de Calidad del Dato.
2. Beneficios Comerciales.
3. Políticas de Calidad del Dato.
4. Procesos de Calidad del Dato.
5. Roles y Responsabilidades dentro de la empresa.
6. Tecnologías.
7. Priorización de áreas temáticas.

Planificar

1. Establecer el Plan para la consecución de los objetivos de Calidad.
2. Concretar las estructuras organizativas sobre la planificación.
3. Concretar los Objetivos y Procesos sobre la planificación.
4. Definir el Plan de capacitación.
5. Establecer las métricas de Calidad.
6. Revisiones del Plan.

  • Bloque 1 -  Descubrimiento: este bloque consiste en realizar un análisis de referencia del estado actual de la calidad de los datos dentro del alcance seleccionado. Esto nos va a servir para resaltar los problemas que se están experimentando actualmente, el impacto que tienen en la compañía los datos de mala calidad y el esfuerzo manual que se está realizando para corregir o paliar los problemas asociados a dichas deficiencias.
  • Bloque 2 - Diseño: en este bloque se describe qué se está comprometiendo a hacer la organización y el cómo se plantea hacerlo, para de esta forma diseñar las bases para establecer un programa sostenible para lograr estos resultados.
  • Bloque 3 - Planificación: el propósito de la planificación es el de encapsular los planes sobre la calidad de los datos dentro de los planes de la organización, para de esta forma garantizar que los datos sean adecuados para el propósito y satisfagan las necesidades comerciales futuras. Y, por supuesto, asegurar la financiación inicial para al menos las iniciativas del primer año.

 

En concreto, ¿cómo se estructura un proyecto de calidad del dato?

La mejora de la calidad de los datos debe abordarse como un ciclo de mejora continua que comprende, a grandes rasgos, las siguientes fases:

Estructura de Proyecto

1. Inicialización: identificación del ámbito del proyecto y creación del Plan de trabajo.

2. Análisis: análisis y descubrimiento del estado actual del dato.

3. Definición: sobre las métricas y Reglas de Negocio.

4. Diseño: diseño y Prototipado de la solución de Calidad.

5. Implementación: inclusión de las Reglas en los procesos e implementación de las Reglas de Calidad.

6. Monitorización: revisión y Monitorización de los resultados.

Para comenzar y como en cualquier proyecto, es necesario Identificar el ámbito, alcance, plan de trabajo, equipo, riesgos y posibles Quick Wins  (1). En definitiva, todo aquello que lo define y nos permite iniciarlo con unas garantías mínimas de éxito. Con respecto a la calidad del dato, cuando tratamos con diferentes entidades de datos, puede que nos preguntemos sobre qué áreas comenzar el análisis.

Para ello, podemos analizar el valor de los datos, estimando cuáles son las áreas en las que peor calidad conlleva un mayor riesgo. Otro enfoque sería el identificar cuáles son los elementos críticos para el negocio como punto de partida.
El siguiente paso sería el análisis y descubrimiento del estado de los datos mediante técnicas de Perfilado (2), como elemento clave en la determinación del alcance de las iniciativas generales de calidad de datos: nos va a permitir determinar el contenido, estructura y calidad de los datos de la compañía y descubrir inconsistencias e incompatibilidades ocultas entre las fuentes de datos y las aplicaciones de destino. 

Para poder analizar cómo el dato cumple con las dimensiones de calidad, el perfilado realizado por las herramientas de calidad del dato se basa fundamentalmente en el análisis tanto sobre la estructura, contenido y relaciones de los almacenes y bases de datos. 

Para ello se usan los ejes:

Perfilados de las Columnas (tanto estructura como contenido):

  • Análisis estadísticos, sobre frecuencias (mínimos, máximos, medias y medianas), patrones, análisis de ocurrencias, análisis de valores dentro de un rango, cardinalidades, distribuciones de los valores, análisis de valores "missing", unicidades....

Perfilado de columnas

Perfilado en las relaciones entre entidades:

  • Entre entidades de información: Se analiza cómo los valores se superponen y relacionan dentro de las entidades, incluyendo:
    • Análisis de claves foráneas, analizando las relaciones entre entidades.
    • Registros huérfanos, analizando aquellos casos en los que no se cumplen las relaciones definidas ya que existe un registro hijo sin registro padre.
    • Determinación de diferencias semánticas y sintácticas, como datos iguales nombrados de forma diferente en columnas o columnas con nombres similares que contienen datos radicalmente diferentes. Este análisis nos ayuda tanto a determinar redundancias como a identificar conjuntos de datos que pueden mapearse conjuntamente.
  • Entre las columnas: Para analizar las dependencias de los atributos de una misma entidad o entidades diferentes, se analizan fundamentalmente dos áreas:
    • Análisis por Clave Primaria, determinando entre los datos posibles claves primarias.
    • Análisis de Dependencias funcionales: Determinando si existen relaciones o estructuras incrustadas dentro de un conjunto de datos. El resultado de este análisis permite valorar la posible redundancia en los datos y tener una primera idea sobre cómo normalizar los mismos.

Perfilado en las relaciones entre entidades

Perfilado en las relaciones entre entidades

 

Análisis de reglas de Negocio: verificar que los datos cumplen con una serie de reglas de negocio definidas (como puede ser por ejemplo que la fecha de defunción es posterior a la fecha de nacimiento).

Con el resultado del perfilado y su análisis se propondrán iniciativas de mejora de la calidad de los datos reactivas (orientadas a corregir problemas de calidad) y proactivas (orientadas a evitar que se produzcan errores y problemas de calidad de los datos).

La definición y establecimiento de métricas, objetivos y Reglas de negocio (3) ayuda a IT y al negocio a medir los resultados de los esfuerzos de calidad de datos de manera conjunta. En este paso se analizan los datos resultado del perfilado y se proponen métricas y reglas de negocio complejas de forma conjunta entre los equipos técnicos y de negocio.

El diseño y prototipado de reglas de calidad (4) ayuda a definir y medir objetivos y criterios sobre la calidad del dato sobre un entorno concreto y controlado. Es en la implementación e integración de reglas y actividades de calidad de datos (5) (limpieza, normalización, estandarización, enriquecimiento, de duplicación, corrección automatizada) cuando incluimos dichas reglas en los procesos. Dichas actividades pueden incluir:

Parseo y Estandarización: como el proceso de aplicar estándares técnicos y extraer la información con una estructura definida, como p.ej. nombres, direcciones, etc.

Nombre Original
Nombre Estandarizado
MARIA LUZ LOPEZ RUIZ María Luz López Ruiz

 

Nombre Parseado
Nombre Nombre principal Apellido 1 Apellido 2 Título
María Luz López Ruiz Sra.

 

Enriquecimiento: El enriquecimiento de datos permite que el usuario obtenga una información más completa sobre cada registro, que le servirá para aumentar su conocimiento, y aumentará la posibilidad de identificar por ejemplo información duplicada. Un ejemplo de enriquecimiento puede ser el agregar el código postal a una dirección:

Enriquecimiento de datos

Match, Merge: Con Match nos referimos al proceso de determinar, a través de reglas de negocio, qué registros se refieren a los mismos datos lógicos. Mediante Merge se consolidan los datos del conjunto identificado y se emparejan en un único registro (registro superviviente), el cual puede contener información mezclada de los diferentes registros. Ejemplos de uso de estas técnicas son la de duplicación, house-holding (o el macheo de clientes que pertenecen a una misma unidad familiar) y Record linking (cuando dicho macheo se extiende más allá de las unidades familiares).

Match, Merge

Verificación de Direcciones: Trata de determinar si una dirección existe y es válida, para lo que la verifica y completa según información de callejeros.

Por último (6), dentro del proceso se incluye la revisión y monitorización de la calidad como parte del proceso de seguimiento y mejora continua. Es importante que se audite a lo largo del tiempo la calidad del dato, y que el resultado de la misma se presente mediante informes y cuadros de mando de manera que resulte comprensible tanto para negocio como para IT.

Conclusiones

Hemos visto que la mayor parte de las compañías están de acuerdo en que una buena calidad del dato es importante para su día a día y especialmente en los procesos de toma de decisiones. Una gran mayoría lo valoran como una ventaja competitiva que les permite desmarcarse de la competencia. Pero, cuando se trata de abordar preguntas esenciales sobre quién es responsable de la calidad del dato, quién debe hacer algo al respecto y quién financiará las actividades necesarias, las cosas se ponen difíciles.

Otros de los muchos desafíos que nos encontramos a la hora de abordar proyectos de calidad del dato es la propia naturaleza heterogénea del dato, el gran volumen de datos que manejan las compañías y su inmediatez. Con el aumento del uso de la Inteligencia Artificial, Machine Learning, y los proyectos de Big Data, los administradores de datos no sólo deben tratar con datos estructurados sino deben también centrarse en la calidad de los datos no estructurados y semiestructurados (texto, datos de sensores, datos en tiempo real, clics en Internet,….) y grandes volúmenes de datos sobre los sistemas corporativos de manera continua. A esto se añade que la calidad de los datos a menudo debe administrarse en una combinación de sistemas locales y en la nube.

Por todo ello, es importante acometer los proyectos de calidad del dato dentro del marco de un programa de gobierno del dato, en el que las no sólo se establezcan las bases sino que se defina el por qué la organización quiere mejorar la calidad de los datos, se formalicen los responsables, que se mida el éxito del programa y se monitorice de manera adecuada que todos los compromisos se están cumpliendo.

Para ampliar información (si hemos conseguido avivar tu curiosidad)