Parte del Trabajo de Fin de Grado de Víctor Plaza Martín, hasta ahora alumno de Ingeniería Informática de la Universidad de La Laguna, ha sido publicado recientemente por la editorial Springer como capítulo titulado «Analyzing Network Log Files Using Big Data Techniques» en el libro «Big Data Management», editado por F.P. García-Márquez y B. Lev.
El trabajo ha sido desarrollado en la Escuela Superior de Ingeniería y Tecnología del centro universitario, por el mencionado Víctor Plaza Martín, junto a Carlos J. Pérez González y Teno González-Santos, y en colaboración con José C. González (Servicio TIC), bajo la dirección de Marcos Colebrook y José L. Roda García.
Este trabajo aborda el diseño y desarrollo de una aplicación que usa técnicas de Big Data para analizar los ficheros log de la WiFi de la Universidad de La Laguna, con el objetivo de rastrear información sobre los distintos dispositivos conectados, así como el número y tipo de accesos a cada edificio. Esta aplicación ayudará en un futuro al Servicio TIC a analizar estos registros en tiempo real. La publicación estará accesible gratuitamente desde la ULL (a partir de 2017) en http://doi.org/10.1007/978-3-319-45498-6
El proyecto corresponde al curso académico 2014/15 y en ese momento uno de los campos tecnológicos de mayor relevancia era y sigue siendo la BigData como se podía observar en los rankings Gartner sobre tecnología. “Básicamente podemos entender BigData como el procesamiento y análisis de grandes cantidades de datos atendiendo a tres factores claves, la velocidad con lo que lo procesamos, la variedad de los datos que confiere mayor dificultad de cómputo, y por último el volumen de los datos ya que a mayor volumen el tiempo final de computación aumenta”, explica el autor del trabajo.
“Estas tres variables, velocidad, variedad y volumen vienen a representar las tres V de la BigData y todas hacen referencia a los datos”, prosigue, por lo que el primer paso del proyecto consistió en conseguir datos de calidad cuyo análisis tuviese interés y fuese relevante, para no realizar un proyecto eminentemente teórico sino más bien práctico.
En este contexto surgió la posibilidad de colaborar con el Servicio TIC, ya que por ley una entidad como la universidad debe almacenar un registro de la actividad de sus servicios como mínimo un año. El Servicio TIC gestiona más de un centenar de servicios telemáticos, a los que se acceden desde los 26 edificios que componen la institución. Esta potente red de comunicaciones con tecnología de 10Gb está formada por más de mil dispositivos de red entre WiFi y cableados que interconectan a los usuarios con los servicios, generando alrededor de 10 Gb de registros por hora. Dicho registro detalla el conjunto de peticiones que se realizan de manera transparente para el usuario pero que monitorizan su actividad, por lo que viene a configurar un mapa de la actividad de los usuarios en este caso de la red WiFi de la universidad.
En este contexto se planteó el problema en colaboración con el Servicio TIC de forma que de manera periódica tanto el volumen como la variedad de los datos iba aumentando. “Esto se hizo con el fin de garantizar la exactitud de los datos, usando los procesos anteriores para validar los resultados obtenidos, ya que cuando se habla de cientos de millones de registros un fallo en su procesamiento puede pasar desapercibido y éste era un aspecto clave para todas las partes interesadas”.
Se optó por el uso de la herramienta líder en su momento para el análisis de datos masivos llamada Hadoop, la cual permitía afrontar el problema desde otra perspectiva, y realizar un análisis computacional basado en una técnica llamada clustering. “Básicamente consiste en dividir el conjunto de datos en bloques más pequeños y manejables, con el fin de realizar el análisis de manera distribuida en muchos ordenadores para posteriormente agregar los resultados. De esta manera conseguimos aplicar paralelización a nuestro proceso de análisis reduciendo notablemente el tiempo de procesamiento”, explica el ingeniero informático de la Universidad de La Laguna.
Para tener una referencia, el resultado final permitía llevar a cabo un análisis de cuatro servidores y cuatro días en poco más de 15 minutos de media, continúa, haciendo uso de un cluster distribuido compuesto por cuatro ordenadores. Uno de las mejores cualidades de la solución generada era su escalabilidad, es decir, el fácil dimensionamiento de la solución, de manera de que añadir un mayor número de ordenadores al clúster fuese casi transparente al usuario con el fin de agilizar el análisis.
Esta primera parte del análisis, conocida como ETL y que consiste en la adquisición, transformación y carga de los datos fue sobre la que más tiempo se invirtió y la que a la postre acabó centrando el capítulo publicado en el libro (referencia 3) debido a la escasez de documentación práctica en éste sentido.
Gráfica Gartner 2013: http://www.gartner.com/newsroom/id/2575515
- Gráfica Gartner 2014: http://www.gartner.com/newsroom/id/2819918
- Link al libro con las referencias necesarias al mismo: http://link.springer.com/book/10.1007%2F978-3-319-45498-6
- Link al libro con las referencias necesarias al mismo: http://link.springer.com/book/10.1007%2F978-3-319-45498-6