Las tareas de procesamiento de datos comunes incluyen numerosos pasos (canalizaciones de datos), que Hadoop no puede manejar con eficiencia. Apache Spark resolvió este problema manteniendo todos los datos en la memoria del sistema, lo que permitía canalizaciones de datos más flexibles y complejas, pero introdujo nuevos cuellos de botella. Analizar incluso unos pocos cientos de gigabytes (GB) de datos podría llevar horas, si no días, en clústeres de Spark con cientos de nodos de CPU. Para aprovechar el verdadero potencial de la ciencia de datos, las GPU tienen que estar en el centro del diseño del centro de datos, que consta de los siguientes cinco elementos: computación, red, almacenamiento, implementación y software. Por lo general, los flujos de trabajo de ciencia de datos de extremo a extremo en las GPU son 10 veces más rápidos que con las CPU.
Leer el blog ›