OpenWebinars

Big Data

Data Discovery: Qué es y por qué es importante

En este artículo nos adentramos en Data Discovery, para que conozcas qué es y su importancia, y lo distingas de otros conceptos relacionados con Big Data.

Carol Cupas

Carol Cupas

Lectura 6 minutos

Publicado el 12 de mayo de 2021

Compartir

Actualmente, vivimos en la era del Big Data donde la tasa de crecimiento de los datos permanece en aumento de forma exponencial. Es por esto que encontramos varios conceptos alrededor del término “data” que pueden resultarnos algo confusos, por lo que, en este artículo, voy a introducirles uno de estos, el concepto de “Data Discovery”.

Disponer de un cloud con múltiples silos de macrodatos de cientos de exabytes (EB, número en base 10 elevado a potencia #18), no representa ningún valor real al negocio, a menos que se logre descubrir y obtener información significativa. Ese descubrimiento se logra al relacionar los datos entre sí, limpiarlos, analizarlos y extraer la información de interés que permitirá tomar las decisiones que tendrán un impacto real para la empresa.

Es precisamente a través del “Data Discovery” (en español, descubrimiento de datos) donde se abarcan los procesos que nos ayudan a descubrir el valor de los datos, a través de la exploración de múltiples fuentes de datos, identificar relaciones ocultas y extraer potenciales patrones o insights que proporcionarán ese valor de negocio que estamos buscando.

Qué es Data Discovery

Data Discovery es un proceso que consiste en técnicas para la exploración profunda de datos desordenados y dispersos, la detección de relaciones que permitan integrarlos (conectar las fuentes), la extracción y preparación de estos, la visualización de patrones ocultos para el análisis y evaluación, de una forma más sencilla.

Las características principales del Data Discovery son:

  • La capacidad de explorar y unir fuentes de datos.
  • La velocidad de ejecución para ofrecer un análisis avanzado.
  • El análisis visual interactivo para explorar los datos y encontrar patrones.

El objetivo del Data Discovery es descubrir y extraer todo el valor de los datos al generar una visión completa de cada fuente de datos, no solo para mejorar la toma de decisiones, sino también para provocar un impacto en la optimización de los procesos empresariales e impulsar nuevos modelos de mercado. Es decir, va más allá del enfoque tradicional del Business Intelligence, que solo implica la preparación de informes y el monitoreo del desempeño de la empresa.

Aunque los procesos de Data Discovery y Business Intelligence tengan algunas similitudes, se diferencian en cuanto a su:

  • Propósito: Mediante Data Discovery se pretende explorar fuentes de datos aisladas, no únicamente internas u operacionales, para descubrir relaciones, patrones o tendencias entre los datos, por su parte con el BI se pretende analizar los datos propios del negocio para comprender mejor los resultados de la empresa.
  • Resultado: Con Data Discovery se obtienen representaciones gráficas de patrones de los datos integrados que son claves para el análisis y evaluación del usuario, mientras que con el BI se obtienen estadísticas y métricas operacionales del negocio.

Descubre más acerca de Qué es Business Intelligence y cuáles son sus beneficios en este artículo.

Data Discovery complementa y potencia las estadísticas generadas con BI, porque tomando esos datos, va aún más lejos creando una imagen que transmite instantáneamente una historia más detallada mediante la visualización de patrones y datos significativos.

Tipos de Data Discovery

El Data Discovery consta de distintas técnicas que permiten realizar el descubrimiento de datos relevantes; éstas pueden ser de dos tipos:

  • Manual

Requiere de analistas con conocimientos técnicos avanzados para la configuración de los archivos y las fuentes de datos a explorar, la preparación de las consultas y las reglas que guían el proceso de descubrimiento de datos para ser utilizadas en los análisis de los usuarios comerciales. Inicialmente, este proceso puede involucrar un tiempo considerable.

En este tipo de Data Discovery, las personas son las que conceptualizan y / o dibujan un mapa para comprender todos los datos de la empresa.

  • Inteligente (Smart)

Combina modelos de aprendizaje automático (ML), inteligencia artificial (IA) y procesamiento de lenguaje natural (PLN) para explorar los datos permitiendo a su vez que estos continúen aprendiendo durante la identificación de los patrones o anomalías, lo que hace que el proceso de análisis sea cada vez más eficiente.

En este tipo de Data Discovery, la Inteligencia Artificial es la encargada del descubrimiento de los datos, es decir, prepara, conceptualiza, integra y presenta los datos, generalmente a través de la visualización de patrones ocultos y datos correlacionados.

El Smart Data Discovery también es conocido como Augmented Analytics.

Para qué sirve Data Discovery

En pocas palabras, Data Discovery proporciona a la empresa una perspectiva más amplia y precisa de las diferentes variables que deben considerar en sus decisiones, ya que permite descubrir relaciones ocultas entre datos aparentemente aislados que anteriormente se desconocían.

Está diseñado para dar soluciones personalizadas a problemas individuales en vez de soluciones estándares como ocurre con el Business Intelligence (BI) tradicional.

También ofrece mayor velocidad, acceso, flexibilidad, facilidad de uso y colaboración a los usuarios porque permite que encuentren respuestas rápidas con informes visuales que facilitan el análisis. Al realizar los análisis en menor tiempo, el rendimiento operacional y la productividad de los usuarios mejoran.

El principal beneficio de Data Discovery es la información comprensible y fácil de visualizar para el análisis de los usuarios comerciales con la finalidad de:

  • Mejorar la toma de decisiones al estar respaldada por los datos.
  • Optimizar sus procesos comerciales a largo plazo.
  • Innovar sus modelos comerciales antes que sus competidores.

Es fundamental que antes de comenzar a usar Data Discovery, se conozca cuál es el enfoque (las necesidades del negocio) que tenemos y queremos resolver. Con esto, podemos perfilar el tipo de datos que buscamos, seleccionar las fuentes apropiadas para nuestro análisis y que no perder demasiado tiempo mirando datos que terminarán sin agregar valor.

El Data Discovery es invaluable para ayudar a los gerentes comerciales a comprender en tiempo real, cómo ven los clientes a la empresa y tener una vista de 360 ​​grados sobre sus productos o servicios. Para esto, necesita la recopilación y evaluación de una diversidad de datos de sus clientes, incluyendo las transacciones e interacciones en las redes sociales acerca de éstos. Con ello, la empresa es capaz de personalizar las estrategias de marketing de sus productos o servicios acorde al cliente.

Por mencionar otros ejemplos de usos interesantes de los análisis con herramientas de Data Discovery, podemos decir:

  • Descubrimiento de hábitos de consumo de los clientes con nuestros productos.
  • Detección de fallos en algún servicio, y por ende la facilidad de proporcionar una pronta corrección al conocer las variables relacionadas.
  • Descubrimiento de señales de advertencia sobre la insatisfacción del cliente.
  • Problemas sutiles de productos como las devoluciones.
  • Pérdida de la participación de mercado por acciones de los competidores tales como precios agresivos.
  • Recomendaciones para el desarrollo de nuevas líneas de innovación.
  • Validación de la calidad de los análisis previos e introducción de ajustes para futuros análisis con datos enriquecidos.
Imagen 0 en Data Discovery: Qué es y por qué es importante

Herramientas de Data Discovery

Las herramientas de Data Discovery están orientadas a usuarios comerciales (personal no técnico) para facilitarles la exploración, el análisis y la visualización de datos utilizando la entrada de búsquedas de texto (semántica) para guiar a los usuarios a la información que investigan (ad hoc queries).

Kurt Schlegel, vicepresidente de investigación de Gartner, en el 2008 publicó el artículo titulado “The Rise of Data Discovery Tools” (en español, “El auge de las herramientas de descubrimiento de datos”), donde predecía un aumento del uso de las herramientas de Data Discovery. Hoy, en el 2021, ese aumento se ha hecho notorio al comprender una industria multimillonaria que ha crecido bajo el paraguas del BI y el Big Data.

Tres componentes de las herramientas de Data Discovery basadas en visualización son:

  • Estructura patentada para almacenar y modelar datos recopilados de fuentes estructuradas y no estructuradas, minimizando la dependencia de metadatos predefinidos.
  • Capa de rendimiento o indexación para reducir la generación de cálculos previos de datos cuantitativos.
  • Interfaz intuitiva para permitir a los usuarios explorar los datos sin mucho conocimiento técnico.

Las herramientas de Data Discovery se dividen en tres categorías principales:

  • Preparación de datos. Empleadas para examinar y combinar previamente los datos de una o varias fuentes. Limpian y transforman los datos para validar su calidad antes de su uso en análisis de negocios. Aquí se encuentran las herramientas de ETL.
  • Análisis visual. Empleadas para crear representaciones de los datos en formato visual para comunicar las relaciones de los datos con las imágenes.
  • Análisis avanzado guiado. Empleadas para obtener sugerencias basadas en algoritmos para mejorar el rendimiento y el análisis predictivo.

Existen muchas herramientas de BI moderno como Tableau, TIBCO Spotfire o Qlik Sense que brindan funciones de Data Discovery integradas. A continuación, nombro algunas herramientas comunes según las categorías:

  • Preparación de datos: Alteryx, Cirro, ClearStory Data, Dataiku, Datameer, Datapine, Datawatch, etc.
  • Análisis visual: Advizor, Comma Soft, Dimensional Insight, Dundas BI, IBM Watson Analytics, Microsoft Power BI, etc.
  • Análisis avanzado guiado: Coheris, Dell Statistica, HP Haven, IBM SPSS, RapidMiner, SAP Predictive Analytics, etc.

El listado de las herramientas de Data Discovery mejor valoradas varía conforme se incorporan nuevas funcionalidades. Para el 2020, en la lista preparada por TrustRadius se encuentran: TIBCO Spotfire, Domo, Google Charts, Anaconda.

Para que el proceso de Data Discovery sea exitoso y cumpla con el propósito esperado, se debe tomar en consideración factores como la capacidad de administración, la precisión, la integridad, y la coherencia de los datos. Estos desafíos se gestionan a través de la gobernanza de los datos, con la cual garantizamos la integridad de los mismos y la reutilización de la información adquirida en los análisis previos. Para esto se necesita que las herramientas:

  • Ofrezcan un autoservicio centralizado, es decir, una plataforma central que permita a los usuarios gestionar y ejecutar sus análisis.
  • Proporcionen datos actualizados e íntegros, lo cual se refiere a que todos los repositorios de datos estén sobre un servidor-data warehouse centralizado.
  • Brinden seguridad y protección de la información ante ciberataques.

Ventajas y Desventajas del Data Discovery

Algunas ventajas que los usuarios tienen con las herramientas de Data Discovery son:

  • Autoservicio al ser herramientas con interfaces amigables fáciles de usar por los usuarios (libre de codificación).
  • Agilidad en el proceso de descubrimiento de tendencias desconocidas y relaciones entre datos de fuentes aisladas y complejas.
  • Aumento del volumen y diversidad de los repositorios de datos que manejan para el análisis y extracción de la información minimizando los errores por carencia de datos suficiente.
  • Aceleramiento en la obtención de resultados, por lo tanto, los usuarios ahorran tiempo en los análisis.
  • Acceso colaborativo a los datos para que diferentes usuarios puedan evaluarlos de diversas formas y crear análisis únicos o reutilizables.

Entre las desventajas encontramos:

  • Precio, pueden ser costosas. Además, algunos proveedores cobran una licencia por usuario que puede incrementarse rápidamente.
  • Configuración inicial. Requieren un analista de datos técnico para la creación de las consultas y modelos que satisfagan las reglas de negocio.
  • Mantenimiento. Al igual que las herramientas tradicionales de BI, se necesitan actualizaciones para agregar nuevos datos.
  • Capacidad para escalar a medida que crece el volumen de datos. Inversión de la estructura (hardware) donde se encuentran las herramientas al aumentarse la complejidad de los análisis y datos.

En resumen

En el presente, las empresas están impulsadas por los datos y para poder consumirlos satisfactoriamente, deben aprovechar los avances tecnológicos enfocados al procesamiento de grandes volúmenes de datos con los que contamos hoy en día.

Los análisis de BI y Data Discovery ayudan a identificar información relevante para el negocio que inicialmente estaba oculta en los datos, analizarla e incorporarla en el centro de datos para apoyar a las decisiones operativas, aumentar las ventas, optimizar la futura planificación empresarial y la estrategia de marketing e innovar el modelo de negocio.

Los procesos de Data Discovery han traído muchos beneficios a las empresas al flexibilizar la exploración e integración de distintas fuentes de datos, agilizar el descubrimiento de nuevos patrones, facilitar la visualización de la información, obtener una visión general de nuestros datos desde varios ángulos, para descubrir patrones y responder a cualquier pregunta comercial.

Adicional, al adoptar un proceso de Data Discovery Gobernado, podemos asegurar la fiabilidad de la información, proteger los datos, y cumplir con los aspectos regulatorios actuales. Esto último es primordial, dado a la aprobación de las leyes destinadas a proteger los datos personales para evitar explotarlos comercialmente, otorgando a los gobiernos la posibilidad de imponer multas a las empresas por violar estas regulaciones durante sus análisis de datos.

Compartir este post

También te puede interesar

Qué es Big Data
Blog

Qué es Big Data

En este artículo hablaremos de qué es el Big Data, para qué sirve y sus características principales.

Miguel Parada