Descripción del proyecto
ESTE PROYECTO ABORDA EL RETO DE HACER USO DE DATA LAKES, DISEÑADOS PARA SU USO EN BIG DATA Y CIENCIA DE DATOS, COMO ELEMENTOS FACILITADORES DE LA DIGITALIZACION EN ENTORNOS EMPRESARIALES. LA ARQUITECTURA DATA LAKEHOUSE RECIENTEMENTE PROPUESTA COMBINA EL DATA LAKE CON LA ORIENTACION A NEGOCIO DEL DATA WAREHOUSE. EN ESTE PROYECTO SE DISEÑARA UNA NUEVA ARQUITECTURA DATA LAKEHOUSE, DENOMINADA CLADE, QUE ABORDE LOS SIGUIENTES RETOS: (I) EL SOPORTE DE DATOS SEMIESTRUCTURADOS Y NO ESTRUCTURADOS; (II) EL SOPORTE DIRECTO DE ANALITICA DE NEGOCIO A TRAVES DE INFORMES SQL, VISUALIZACION, MACHINE LEARNING (ML) Y CIENCIA DE DATOS; Y (III) EL MAXIMO APROVECHAMIENTO DE LOS SERVICIOS EN LA NUBE POR SU ENFOQUE EN LAS NECESIDADES DEL NEGOCIO, REDUCIENDO EL TIEMPO DE LLEGADA AL MERCADO, ASI COMO SU EFICIENCIA Y ESCALABILIDAD SIN COMPROMETER SU RENDIMIENTO. LA ADOPCION DE CLADE IMPULSARA LA DIGITALIZACION DE PYMES Y ADMINISTRACIONES PUBLICAS AL MEJORAR LA CAPACIDAD, EL RENDIMIENTO Y LA CONFIABILIDAD DE LA EXPLOTACION DE DATOS, AL MISMO TIEMPO QUE REDUCIRA TANTO EL COSTE TOTAL DE LA SOLUCION COMO LAS INVERSIONES INICIALES. ASIMISMO, PROPORCIONARA UNA ALTERNATIVA ABIERTA FRENTE A LA DEPENDENCIA DE PROVEEDORES EXISTENTE EN PLATAFORMAS DE GESTION DE DATOS COMO SERVICIO (DATA-AS-A-SERVICE O DAAS), ENTRE LAS QUE DESTACAN LOS PRODUCTOS COMERCIALES DATABRICKS Y SNOWFLAKE.EL EQUIPO DEL PROYECTO ESTA CONSTITUIDO POR 11 MIEMBROS DEL GRUPO DE ARQUITECTURA DE COMPUTADORES DE LA UNIVERSIDADE DA CORUÑA (10 DE ELLOS DOCTORES), CON UNA AMPLIA EXPERIENCIA CONTRASTADA EN EL AMBITO DEL PROCESAMIENTO BIG DATA, LA COMPUTACION EN LA NUBE Y EL HPC. EL PROYECTO ESTA PLANIFICADO PARA SU EJECUCION EN 2 AÑOS, SIENDO CUATRO LOS OBJETIVOS PROPUESTOS:1. EL ANALISIS DEL ESTADO DEL ARTE EN ARQUITECTURAS DAAS, CON ESPECIAL ATENCION A LAS ARQUITECTURAS DATA LAKEHOUSE.2. EL DISEÑO, IMPLEMENTACION Y DESPLIEGUE DE CLADE SOBRE UN PROVEEDOR DE NUBE PUBLICA. EL DISEÑO INCORPORARA: (I) EL SOPORTE EFECTIVO DE DATOS USANDO FORMATOS ABIERTOS, (II) ML DISTRIBUIDO Y PRECONFIGURADO, Y (III) MEJORAS DE RENDIMIENTO Y ESCALABILIDAD. EL DESARROLLO DE CLADE SE BASARA EN SERVICIOS DE LA NUBE, ADEMAS DE HACER USO DEL PROCESAMIENTO EN MEMORIA DE SPARK Y DE CONECTORES DE DATOS AMPLIAMENTE DIFUNDIDOS.3. EL DESARROLLO DE UN CONJUNTO DE BENCHMARKS PARA DATA LAKEHOUSES, SIMILAR A TPC-DS, REFERENCIA EN DAAS. DISPONER DE UN CONJUNTO DE BENCHMARKS ESPECIFICO PARA DATA LAKEHOUSES, UNA CARENCIA ACTUAL, ES CLAVE PARA EVALUAR TANTO CLADE COMO ARQUITECTURAS LAKEHOUSE ALTERNATIVAS.4. EVALUACION DE LA ARQUITECTURA PROPUESTA DE DATA LAKEHOUSE. SE EVALUARAN COMPARATIVAMENTE CLADE Y SUS ALTERNATIVAS, CON EL OBJETIVO DE CARACTERIZAR SU USABILIDAD Y RENDIMIENTO. ASIMISMO, SE DESPLEGARA UN CASO DE USO PRACTICO, EN EL AMBITO DE UN SECTOR TRACTOR QUE COMBINE DIGITALIZACION Y SOSTENIBILIDAD.CLADE SE DIRIGE A ORGANIZACIONES CON EXPERIENCIA LIMITADA EN GESTION DE DATOS Y SERVICIOS EN LA NUBE, DOTANDOLES DE LA ARQUITECTURA DE BIG DATA MAS AVANZADA, EL DATA LAKEHOUSE. PARA INCREMENTAR EL IMPACTO DEL PROYECTO LAS COLABORACIONES OBJETIVO SERAN AQUELLAS EN TORNO A LA DIGITALIZACION DE LA CADENA DE VALOR EN SECTORES TRACTORES DE LA ECONOMIA, PARTICULARMENTE EN TRANSICION ECOLOGICA (POR EJEMPLO, REDUCIENDO EL CONSUMO DE RECURSOS). FINALMENTE, EL PROYECTO INCLUYE: (I) UN PLAN DE DIFUSION, (II) UN PLAN DE EVALUACION Y MITIGACION DE RIESGOS, (III) UN PLAN DE GESTION DE DATOS, Y (IV) UNA ESTRATEGIA DE TRANSFERENCIA DE TECNOLOGIA. ATA LAKEHOUSE\TRANSICION DIGITAL\PLATAFORMA DE GESTION DE DATOS\ARQUITECTURA BIG DATA\DATO COMO SERVICIO (DAAS)\ARQUITECTURA CLOUD\DATA WAREHOUSE\LAGO DE DATOS