Los 3 tipos de datos más comunes en Big Data

Este es el tercer artículo de la serie de Introducción al Big Data y no podemos continuar sin hablar sobre los 3 tipos de datos más comunes en Big Data.

Comparte este artículo

Introducción

Este es el tercer artículo de la serie de Introducción al Big Data y no podemos continuar sin hablar sobre los 3 tipos de datos más comunes en Big Data. Vamos a dar pistas de cómo puedes identificar los tipos de datos y cómo pueden afectar tu ecosistema.

Si no has leído el artículo anterior sobre ¿Qué pasa con los datos en Big Data? te animo a que lo veas aquí. Trata sobre el flujo general de los datos desde que se generan hasta que se procesan para convertirse en información muy valiosa para la empresa.

Los 3 tipos de datos más comunes.

Datos, datos y más datos ¿de que más hablaríamos no? Ahora toca explicar sobre los tipos de datos que existen. Y los principales y más comunes son los siguientes: Datos Estructurados, Semi Estructurados y Datos No Estructurados.

Datos Estructurados

La forma más fácil de identificar los datos estructurados es precisamente a través de su estructura. Cuando hablamos de estructura nos referimos a información adicional que nos da detalles acerca del contenido del dato.

En algunos entornos se le conoce a esta información adicional como metadatos, en Big Data lo conocemos como Schema. Para aterrizarlo pondremos varios ejemplos:

Hoja de Cálculo de Excel

Vamos a suponer que tenemos un archivo excel que tiene 3 columnas: Nombre, Apellido y Edad. A pesar de que no sabemos el contenido de las filas, si tenemos conocimiento de la estructura, sabemos:

El archivo tiene 3 columnas
La primera y segunda columna hacen referencia al nombre y al apellido de una persona
La tercera columna hace referencia a la edad de la persona.

Nombre	Apellido	Edad
Erick	Reyes	26
José	Gutierrez	50
Fernanda	Graham	36
Bernardo	Hernandez	13

Ahora, al ver los datos en la tabla con solo cuatro filas nos dimos cuenta de lo siguiente:

El nombre y el apellido son de tipo cadena
La columna de la edad es de tipo entero.

Esta información, que a priori, puede parecer simple, es la base de lo que llamamos datos estructurados.

Base de datos relacionales

Para los que ya tienen experiencia trabajando con base de datos transaccionales o relacionales, ya deben saber por qué toda la información almacenada en esa base de datos es estructurada.

Todas las bases de datos relacionales utilizan tablas y todas las tablas tienen una estructura definida desde el momento en que se crean. Las tablas tienen columnas y cada columna tiene asociado un tipo de dato.

En la imagen a continuación, se aprecia que la base de datos tiene 6 tablas, cada una con sus campos definidos y asociados a un tipo de dato. Esta información es la que se conoce como esquema o estructura.

Datos No Estructurados.

Los datos no estructurados se conocen por NO tener una estructura definida. Es decir, que no tenemos idea de qué vamos a encontrar al ver ese dato. Vamos con el ejemplo:

Un documento de Word

Un documento de word está compuesto por muchas páginas las cuales no guardan una estructura definida. Sí, sabemos que tiene una cantidad X de páginas, que tiene un formato, pero no sabemos el contenido del documento.

Y no es solo el no saber el contenido de este documento en específico. Aunque supieramos el contenido, no se parecería en nada a otro documento de Word.

Cada documento de Word tiene su propio contenido y su propio formato y es por esta razón que se le conoce como datos no estructurados.

Datos Semi-Estructurados.

En este mundo no solo hay negro y blanco, también hay tonos grises y por esta razón no podemos dejar de lado los datos semi estructurados. Este tipo de dato es más común de lo que pensamos y consiste en tener una parte estructurada y otra sin estructura.

El caso más frecuente, o diría yo más conocido, sería el de un Tweet. Vamos a ver un tweet y su definición a nivel técnico.

{
 "created_at": "Wed Oct 10 20:19:24 +0000 2018",
 "id": 1050118621198921728,
 "id_str": "1050118621198921728",
 "text": "To make room for more expression, we will now count all emojis as equal—including those with gender‍‍‍ ‍‍and skin t… https://t.co/MkGjXf9aXm",
 "user": {},  
 "entities": {}
}

Un tweet se reconoce como dato semi estructurado debido a que cuenta con información que permite identificar parte del contenido. Por ejemplo:

created_at: fecha en la que se creó el tweet.
id: identificador del tweet.
id_str: identificador en cadena
user: información del usuario
entities: información de las entidades (fotos, hashtags, mentions, etc)

Por otro lado, tenemos la columna «text» que contiene el texto que publica la persona en el tweet. Sabemos que es el texto del tweet, pero ese campo en particular no tiene estructura definida. El usuario puede colocar lo que quiera sin seguir lineamientos estrictos. Y el contenido de ese campo en particular no se parece en nada al de otros tweets.

¿Cómo es el comportamiento según los tipos de datos?

A diario se generan millones y millones de datos a nivel mundial y el tema más importante aquí es que los datos que más se generan son los datos no estructurados. Cada día se graban más videos, se toman mucho más fotos, se comparten audios y al final del día todos estos son datos no estructurados.

Si ponemos en una escala por cantidad de información, los datos estructurados son la minoría, luego vienen los semi-estructurados y finalmente los datos no estructurados.

De acuerdo al tipo de dato que vayas a trabajar necesitarás diferentes herramientas y sobre todo formas diferentes de procesar los datos para encontrarles utilidad. Al final del día esto es algo que debes considerar para definir arquitecturas, herramientas y presupuestos.

En conclusión

Existen 3 tipos de datos y varían de acuerdo a la estructura que tienen. Recordando que la estructura se le conoce como esquema y que el esquema nos brinda información valiosa sobre el contenido de los datos. Los 3 tipos de datos son: estructurados, no estructurados y semi-estructurados.

Acerca del Autor:

Erick Reyes

Soy un Ingeniero en Sistemas y Computación, Máster en Emprendimiento e Innovación con especialidad en Big Data y Analítica en las Organizaciones. Me apasiona compartir lo poco que sé para ayudar a otras personas a cumplir sus objetivos. Autodidacta, pro-activo, innovador y con capacidad de resolución de problemas.

Otros artículos de Interés

Big Data

¿Cómo se procesa la información en Big Data?

El procesamiento de los datos se puede dar de varias formas, en tiempo real, por lotes o en una combinación entre las dos. Si quieres saber en que consisten cada tipo de procesamiento este artículo es para ti.

Erick Reyes 29 mayo, 2020

Big Data

¿Dónde guardamos los datos en Big Data?

Almacenar los datos puede convertirse en algo complejo dependiendo de nuestro ecosistema de Big Data. Vamos a simplificar aún más el almacenamiento de los datos explicando los conceptos de Data Lake y Data Warehouse.

Erick Reyes 22 mayo, 2020

Te gustaría aprender más?

Suscríbete al Newsletter.