Descripción del proyecto
El objetivo de esta actuación es implementar un clúster Hadoop en el Port d'Informació Científica (PIC) con el que los investigadores puedan generar, almacenar y analizar grandes conjuntos de datos, además de compartirlos y distribuirlos con toda la comunidad científica. El clúster, que se ubicará en el servicio común del PIC denominado Big Data, aumenta la capacidad de la plataforma ya existente y posibilitará gestionar integralmente un flujo de trabajo de datos dentro del mismo servicio. Basado en el sistema de ficheros distribuido HDFS y todo su ecosistema tecnológico, va a facilitar la interacción y el manejo eficiente de grandes volúmenes de datos.Una parte fundamental del éxito de cualquier proyecto científico se mide por el impacto de sus resultados en la comunidad científica. Para ello, este clúster estará conectado a 200 Gbps con redes de datos externas y facilitará, a través de diferentes herramientas, la creación, análisis, exploración, visualización y distribución de los datos, para impulsar su uso, teniendo en cuenta los principios de la ciencia abierta.Para este objetivo habrá que desplegar una equipamiento con las siguientes especificaciones: un clúster con un mínimo de 1000 cores, con 10-40 GiB RAM por core, un mínimo de 2 PB de capacidad neta de almacenamiento, con cada nodo conectado a 10-25 Gbps y 4 nodos de administración en alta disponibilidad, además de varios switches para la red y el cableado correspondiente.