Vi ved allerede, at Large Hadron Collider (LHC) vil være det største, dyreste fysikeksperiment nogensinde udført af menneskeheden. At kollidere relativistiske partikler ved energier, der tidligere var ufattelige (op til 14 TeV-mærket ved udgangen af tiåret) vil generere millioner af partikler (kendt og endnu ikke opdaget), der skal spores og karakteriseres af store partikeldetektorer. Dette historiske eksperiment vil kræve en massiv dataindsamling og lagringsindsats ved at omskrive reglerne for datahåndtering. Hvert femte sekund genererer LHC-kollisioner ækvivalent med en DVD-værdi af data, det vil sige en dataproduktionshastighed på en gigabyte pr. Sekund. For at sætte dette i perspektiv kan en gennemsnitlig husholdningscomputer med en meget god forbindelse muligvis downloade data med en hastighed på en eller to megabyte pr. Sekund (hvis du er meget heldig! Jeg får 500 kilobyte / sekund). Så LHC-ingeniører har designet en ny type databehandlingsmetode, der kan gemme og distribuere petabyte (million-gigabyte) af data til LHC-samarbejdspartnere over hele verden (uden at blive gamle og grå, mens de venter på en download).
I 1990 revolutionerede Den Europæiske Organisation for Nuklear Forskning (CERN) den måde, vi lever på. Det foregående år skrev Tim Berners-Lee, en CERN-fysiker, et forslag til elektronisk informationsstyring. Han fremførte ideen om, at information let kunne overføres via Internettet ved hjælp af noget, der hedder ”hypertext.” Med tiden gik Berners-Lee og samarbejdspartner Robert Cailliau, en systemingeniør også ved CERN, sammen et enkelt informationsnetværk for at hjælpe CERN-forskere med at samarbejde og dele oplysninger fra deres personlige computere uden at skulle gemme det på besværlige lagringsenheder. Hypertext aktiverede brugere til at gennemse og dele tekst via websider ved hjælp af hyperlinks. Berners-Lee fortsatte derefter med at oprette en browser-editor og indså snart, at denne nye form for kommunikation kunne deles af et stort antal mennesker. I maj 1990 kaldte CERN-forskerne dette nye samarbejdsnetværk Internettet. Faktisk var CERN ansvarlig for verdens første websted: http://info.cern.ch/ og et tidligt eksempel på, hvordan dette site så ud, kan findes via webstedet World Wide Web Consortium.
Så CERN er ikke fremmed for at styre data via Internettet, men den splinternye LHC vil kræve særlig behandling. Som fremhævet af David Bader, administrerende direktør for high performance computing ved Georgia Institute of Technology, er den nuværende båndbredde, som Internettet tillader, en enorm flaskehals, hvilket gør andre former for datadeling mere ønskværdig. ”Hvis jeg ser på LHC, og hvad det gør for fremtiden, er det den eneste ting, som Internettet ikke har været i stand til at styre en fænomenal rigdom med data, ”Sagde han, hvilket betyder, at det er lettere at gemme store datasæt på terabyte-harddiske og derefter sende dem i stillingen til samarbejdspartnere. Selvom CERN havde taget fat på samarbejdende karakter af datadeling på World Wide Web, vil de data, LHC genererer, let overbelaste de små båndbredder, der i øjeblikket er tilgængelige.
Derfor er LHC Computing Grid designet. Gitteret håndterer store LHC-datasætproduktion i niveauer, den første (Niveau 0) er placeret på stedet i CERN nær Genève, Schweiz. Niveau 0 består af et enormt parallelt computernetværk, der indeholder 100.000 avancerede CPU'er, der er blevet oprettet til øjeblikkelig at lagre og administrere de rå data (1s og 0s binær kode), der pumpes ud af LHC. Det er værd at bemærke på dette tidspunkt, at ikke alle partikelkollisioner vil blive opdaget af sensorerne, kun en meget lille brøkdel kan indfanges. Selvom kun et relativt lille antal partikler kan detekteres, betyder det stadig et enormt output.
Tier 0 administrerer dele af dataene, der udsendes ved at sprænge dem gennem dedikerede 10 gigabit-per-sekund fiberoptiske linjer til 11 Niveau 1 steder i Nordamerika, Asien og Europa. Dette gør det muligt for samarbejdspartnere såsom Relativistic Heavy Ion Collider (RHIC) på Brookhaven National Laboratory i New York at analysere data fra ALICE-eksperimentet og sammenligne resultater fra LHC-blyionkollisioner med deres egne tunge ionkollisionsresultater.
Fra de internationale Tier 1-computere pakkes datasæt og sendes til 140 Niveau 2 computernetværk beliggende på universiteter, laboratorier og private virksomheder over hele verden. Det er på dette tidspunkt, at forskere vil have adgang til datasættene til at udføre konverteringen fra den rå binære kode til brugbar information om partikelenergier og -baner.
Tiersystemet er alt sammen godt og godt, men det ville ikke fungere uden en meget effektiv type software kaldet "middleware." Når man forsøger at få adgang til data, kan brugeren muligvis have oplysninger, der er spredt i petabytes af data på forskellige servere i forskellige formater. En open-source middleware platform kaldet Globus vil have det enorme ansvar at samle de krævede oplysninger problemfrit som om disse oplysninger allerede sidder inde i forskerens computer.
Det er denne kombination af lagsystemet, hurtig forbindelse og genial software, der kunne udvides ud over LHC-projektet. I en verden, hvor alt er ved at blive "on demand", kunne denne type teknologi gøre Internettet gennemsigtig til slutbrugeren. Der ville være øjeblikkelig adgang til alt fra data produceret af eksperimenter på den anden side af planeten, til at se high definition-film uden at vente på download-statuslinjen. Ligesom Berners-Lees opfindelse af HTML, kan LHC Computing Grid muligvis revolutionere, hvordan vi bruger Internettet.
Kilder: Scientific American, CERN