divendres, 30 de juny de 2017

Supercomputacio i Big Data, son el mateix?

Marenostrum, BSC, Barcelona
"Perhaps is not the most powerful supercomputer, but is, by far, the most beautiful"


Deia Andy Warhol que “al futur, tot el mon serà famós durant quinze minuts; tot el mon hauria de tenir dret a quinze minuts de glòria”. El corol·lari d'aquest teorema vindria a dir que cada dos per tres hi ha una nova etiqueta que es posa de moda. I avui en dia l'etiqueta de moda, el trending tòpic, és “Big Data”. També és usual il·lustrar qualsevol menció al tema amb referències a la supercomputació; però, és realment el mateix? I si no ho és, què les vincula i què les diferencia?

Hi ha problemes fàcils i problemes difícils; això ja ho hem anat aprenent des de primària. Però hi ha problemes que, tot i ser conceptualment fàcils, són inabastables pel volum de dades que cal manipular per resoldre'ls. Calcular el moviment parabòlic d'un projectil, d’un cos sòlid i rígid és fàcil, té una formulació senzilla i coneguda; però calcular el moviment de totes i cada una de les seves molècules, encara que les regeix la mateixa fórmula, ja no ho és. O el moviment de tots els àtoms d'una molècula orgànica súper llarga, com l'ADN; o de tots els estels d'una galàxia; o el flux a través dels carrers de
Barcelona del pol·len de soja que descarregaven fa unes hores al port i que s'escampa deixant un rastre de gent esternudant... això ja no és fàcil. Molts càlculs, i massa llargs.

I ara què fem? Doncs a grans càlculs, supercomputadors. Sabíeu que la predicció metereològica va ser un dels primers reptes de la supercomputació? #spoiler   Les equacions que regeixen el temps atmosfèric son prou conegudes, però la solució no és fàcil d’obtenir, i estar calculant durant 6 hores quin temps farà d'aquí a tres hores... #fail   Per poder abordar aquests problemes, doncs, es van construir els primers ordinadors capaços de fer molts càlculs amb moltes dades en molt poc temps.

A grans trets i sense necessitat d'aprofundir gaire, hi ha dues maneres de fer un supercomputador: un de gran i molt ràpid; o molts de petits treballant col·laborativament en paral·lel. Darrerament aquesta és la tendència en disseny de supercomputadors, ja que assoleix resultats molt millors amb esforços aparentment menors. Afegim-hi les capacitats de les xarxes de telecomunicacions de darrera generació i resulta que avui en dia no cal confinar un superodinador en cap cambra blanca, sinó que el podem tenir distribuït en un edifici... o un campus... o inclús un continent. Però això ja son figues d’una altra panera.

Només per tenir unes quantes dades. El concepte de supercomputació canvia cada pocs anys; si tenim en compte la llei de Moore, segons la qual, cada dos anys som capaços de duplicar el volum de transistors en un xip, és fàcil de suposar que cada dos anys hem de ‘duplicar’ la definició. Diguem que avui en dia un superordinador té capacitat de fer més d’1PF (1 PetaFlop, 1.000 TeraFlop, 1 milió de GigaFlop... digues-li com vulguis... una passada de flops o de càlculs per segon)... i creixent.

Anem pel Big Data. Què volem dir amb Big Data que no ho inclogui el que ja hem dit? El concepte, tot i que també és conegut des de fa temps, ha eclosionat darrerament amb la consolidació de la Internet, en general, i de les smart cities, en particular.

Gartner va definir (2012) Big Data com un “conjunt d’actius d’informació de gran Volum, gran Varietat i que canvien a gran Velocitat que requereix eines innovadores i eficients en temps i cost capaces de processar la informació per millorar-ne la comprensió i la presa de decisions.” 

Segons IBM (2014) el 90% de les dades que hi ha avui en dia al mon s’han generat en els darrers 2 anys... i d’això probablement en té la ‘culpa’ internet. El repte és, d’una banda, saber quantes i quines d’aquestes dades ens son útils, les podem convertir en informació i, de l’altra, com ens poden ajudar a prendre decisions. Decisions per a què? Doncs per a gestionar de forma smart una ciutat, per exemple.

La supercomputació doncs, és una solució, mentre que el Big Data és un problema, però no per això l'un i l'altre tenen un vincle causal. La supercomputació no és la solució, o si més no, no és tota la solució al problema del Big Data, sinó només un dels capítols.


@jignasib