Big Data en el deporte, que no te den gato por liebre

No hay comentarios

El Big Data en general, y el Big Data en el deporte en particular, es un concepto que se utiliza incorrectamente en la mayoría de ocasiones y del que muchos abusan y hacen un uso indebido, confundiendo, llevando a equívocos y generando expectativas desmedidas.

Las estadísticas de los jugadores y equipos de un deporte, sus datos personales, los resultados de las competiciones de una federación, incluso incluyendo los de múltiples temporadas, no son por lo general Big Data.

Vamos a explicarte por qué mostrar gráficas con la evolución de una clasificación, las estadísticas de un equipo o identificar a los jugadores que más influyen en la victoria de un equipo, no es Big Data.

El Big Data, en sí mismo, no es nada. Lo importante no es tener muchos o pocos datos, que también, sino el uso y el valor que obtienes de los mismos.

¿Qué es el Big Data en el deporte?

Big Data es un conjunto de tecnologías que te permiten trabajar con conjuntos de datos tan grandes o tan complejos que no pueden procesarse con aplicaciones informáticas tradicionales en un espacio de tiempo tal que puedas hacer un uso efectivo de ellos.

Pongamos un ejemplo muy sencillo para visualizarlo. Considera un Excel con una sola pestaña. Es fácil hacer operaciones y filtrar datos. Ahora añádele pestañas, la cosa se complica. Si tienes múltiples archivos Excel, cada uno de ellos con cientos de pestañas y datos, el cálculo es complejo y es necesario utilizar ordenadores y aplicaciones especiales. Si sigues añadiendo Excels y pestañas es cuando las aplicaciones informáticas tradicionales no son suficiente y, entonces sí, puedes hablar de Big Data.

Hay tres variables en los datos que hacen que puedan o no ser procesados por aplicaciones tradicionales: volumen, velocidad y variedad. Es decir, cuántos datos, a qué velocidad hay que analizarlos y cuántos tipos de datos.

Volumen

Si quieres quedarte con una cifra, ya en el año 2010 se consideraba Big Data para volúmenes superiores a 1 Terabyte (TB), es decir, 1.000 Gigabytes (GB) o 1.000.000 de Megabytes (MB). Como sabes, esta cifra aumenta cada año, puesto que las aplicaciones tradicionales evolucionan y pueden procesar mayores volúmenes y, por otro lado, la cantidad de datos que se generan aumentan también exponencialmente.

¿Y cuánta información es 1TB?

Para hacerte una idea de cuántos datos, almacenar un registro con la información del jugador que anota un tiro de tres, el minuto y segundo en el que lo anota y desde dónde ha lanzado, ocupa unos 100 bytes. Es decir, 1 TB puede almacenar 10.000.000.000 (10 mil millones) de incidencias o estadísticas de un partido.

De forma similar, si pensamos en pruebas de natación o carreras, con unos 500 participantes, el tamaño es de 50.000 bytes. Es decir, unos 20.000.000 de carreras.

Otra forma de entender su dimensión es con hojas de papel tamaño A4. Un folio lleno de texto puede ocupar unos 5.000 bytes. Por lo que 1 TB es el equivalente a 200.000.000 (200 millones) de folios llenos de texto. La información contenida en doscientos millones de actas de un partido.

Velocidad

Si quieres procesar 1.000 TB y no te importa tardar 1 mes, podrías hacerlo con aplicaciones tradicionales y no necesitarías tecnología Big Data.

Si quieres procesarlo en tiempo real o casi tiempo real, sí lo necesitas. Una característica del Big Data es que es capaz de hacer consultas complejas en mucho menos tiempo que una tradicional, mientras que para cálculos muy sencillos suele ser más lenta. De aquí la importancia de elegir correctamente la tecnología adecuada para cada problema.

De menor a mayor podemos hablar de procesamiento en lote, procesamiento periódico, procesamiento casi en tiempo real y procesamiento en tiempo real. Depende del intervalo de tiempo en el que necesites procesar los datos y de su volumen para necesitar o no tecnología Big Data.

Como ejemplo, puedes consultar el ranking de la Real Federación Española de Natación en el que procesamos en tiempo real unos 5.000.000 de marcas por temporada, con datos de 17 temporadas.

Los cálculos de ranking como estos, otras empresas suelen hacerlos durante la noche de forma periódica, los almacenan y están disponibles por la mañana.

En LEVERADE, optimizando las consultas a la base de datos y los algoritmos de cálculo, conseguimos hacerlo en apenas un segundo con una base de datos relacional tradicional, sin requerir tecnología Big Data. Cada vez que haces clic en Calcular ranking, realizamos el cálculo sin tener que esperar varios días a que el procesamiento se haga durante la noche.

Variedad

Además del volumen y la velocidad, influye también los tipos de datos a procesar. No es lo mismo procesar 1 TB de datos de texto, 1 TB de vídeo que 500 GB de texto más 500 GB de vídeo.

En el mundo del deporte puedes aunar muchas fuentes de datos distintos. Texto y números para datos deportivos, vídeo, imágenes, redes sociales, salud. Aunque necesitar procesarlos todos a la vez y con un mismo objetivo no es lo habitual.

Estos tipos de datos se pueden agrupar en estructurados, no estructurados y semi estructurados.

Los estructurados son todos aquellos que podrías almacenar en un Excel. Con filas y columnas claras. Incluyen normalmente sólo texto, números, horas y fechas y se puede buscar fácilmente y operar sobre ellos.

Los semi estructurados tienen parte de los estructurados pero no siempre puedes reducirlo a filas y columnas. Un ejemplo que puedes haber visto alguna vez son los archivos XML y JSON. Si los abres con un editor de texto, verás que, en parte, es legible pero no es la mejor forma de consultar los datos.

Los no estructurados incluyen email, redes sociales (tweets, posts en Facebook, Instagram), mensajes de texto, chats, imágenes, audio o vídeo. Buscar en ellos y procesarlos no es tan fácil como en los estructurados.

Fuentes de datos generados en el deporte y las competiciones

Fruto de la actividad en una federación, liga, club o aficionado al deporte, puedes contar con datos originados por múltiples fuentes. Unas propias de la actividad deportiva, y otras de la interacción de los aficionados al deporte con el contenido generado.

Datos estadísticos de partidos

Fechas, resultados, marcas, goles, pases y datos indirectos inferidos de ellos como comienzo y fin de temporada o cambios de equipo.

Estos datos por sí solos es muy difícil que sean Big Data. Como has visto antes, 1TB son unos 10 mil millones de estadísticas.

Datos deportivos y salud de atletas

La potencia, velocidad o la frecuencia cardíaca son parámetros que cada vez es más fácil obtener con dispositivos ubicados en el propio atleta o con otros externos de seguimiento. Englobados normalmente en lo que se denomina Internet of Things.

Es aquí cuando la cantidad de datos que puedes obtener es tan grande que empieza a tener sentido hablar de Big Data. Recuerda, siempre y cuando el volumen, velocidad y variedad haga inviable utilizar tecnologías tradicionales de cómputo.

Recuerda también que todo depende del uso que quieras hacer de los datos y del caso de uso. Es complicado que una federación, liga o equipo requiera de tantos datos sobre los que operar en tiempo real en un caso de uso práctico y real.

Un partido de fútbol con 22 jugadores, a los que se les mida las pulsaciones, ubicación en el campo y velocidad cada segundo generaría, en 45 minutos, unos 178.200 registros. Hasta los 10 mil millones necesarios para tener 1TB queda mucho.

Datos personales de atletas

Sexo, edad, deporte practicado, frecuencia en la que se practica.

Pocos pero sumados a los dos tipos de datos anteriores permiten tener información, que con el análisis adecuado, puede ser muy valiosa.

Datos de usuarios y aficionados

Como consecuencia de la actividad de federaciones, clubes y ligas, se realizan multitud de competiciones y eventos que son seguidos por miles de aficionados.

Web, móvil, redes sociales, televisión, radio aportan datos sobre el comportamiento, dispositivos utilizados, hábitos de consumo, muy útiles para iniciativas de fan engagement.

Es cuando unes todas estas fuentes de datos y quieres procesarlos en tiempo real o casi tiempo real cuando las tecnologías de cálculo tradicionales pueden no ofrecer una respuesta lo suficientemente rápida para poder accionar los datos.

Cómo explotar y sacar partido al Big Data

Como federación, competición o club tu preocupación no es tener Big Data o no, sino qué valor puedes obtener de tus datos (grandes o pequeños), ya sea directamente o haciéndolos accesibles a terceros.

Directamente puedes analizar los datos de inscritos, licencias, estadísticas y resultados deportivos para crecer año a año y aumentar la satisfacción entre tus federados y alumnos.

Indirectamente muchos de tus datos son de gran valor para patrocinadores, publicistas y casas de apuestas, así como para empresas especializadas en la salud y el rendimiento deportivo.

En tu día a día, lo normal es que no necesites utilizar tecnologías Big Data. Un cuadro de mando y una visualización de tus métricas clave harán crecer tu federación y tu club.

Serán los proveedores indirectos que acabamos de comentar los que puedan ofrecerte mejores servicios gracias a tus datos. En estos casos sí que hablarán de Big Data puesto que agrupan datos de cientos de federaciones y clubes como el tuyo, de sus redes sociales y de los datos de salud de tus atletas. Son ellos los que tendrán limitaciones tecnológicas dado el volumen, velocidad y variedad de sus datos.

Cuando se dispone de tantos datos, es difícil, como humanos, entenderlo todo y detectar cuáles son los que aportan más valor a lo que estás estudiando. Es aquí cuando entra en escena el Machine Learning y la Inteligencia Artificial.

En LEVERADE trabajamos con estas tecnologías para detectar patrones en los datos, hacer predicciones, asignar nivel a atletas y generar contenido enriquecido, de un modo que sería muy costoso hacerlo con personal de una federación, competición o club. Si quieres explotar tus datos o asesorarte sobre opciones que te hayan presentado otras empresas puedes contactarnos y te ayudaremos.

Category: Fan Engagement
Tags:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Rellena este campo
Rellena este campo
Por favor, introduce una dirección de correo electrónico válida.
Tienes que aprobar los términos para continuar

17 − sixteen =