Co lze zvládnout za jeden den na novém serveru SGI(R) UV(TM) 2000 - největším systému na vytěžování dat s principem in-memory? * Mezinárodní konference International Supercomputing Conference 2012
Společnost SGI (burzovní index NASDAQ:SGI), uznávaná špička v oblasti využívání počítačových technologií v technické sféře (technical computing) navázala spolupráci s Kalevem H. Leetaruem z univerzity v Illinois na vytvoření vůbec první aplikace pro mapování a objevování historie na základě obsahu anglické verze Wikipedie v čase a prostoru. Výsledky zahrnují vizualizaci moderní historie prostřednictvím rychlejšího zpracování a vytěžování dat (in-memory data-mining). K. Leetaru stáhl celou anglickou verzi Wikipedie do serveru SGI(R)UV(TM) 2000 a podařilo se mu tak ukázat, jak Wikipedia odhalovala pohled světa na historii v průběhu posledních dvou staletí. K těmto referencím je připojeno místo, rok a pozitivní nebo negativní hodnocení.
Zatímco několik předchozích projektů mapovalo příspěvky Wikipedie pomocí editorem manuálně přidávaných metadat, zahrnovaly tyto dřívější snahy pouze nepatrný zlomek informací o lokalitách uváděných na Wikipedii. Tento projekt zpřístupňuje obsahy článků jako takové, identifikuje každé místo a datum u všech čtyř milionů stránek, jejich propojení a vytváří tak rozsáhlou síť.
“Pohled” na Wikipedii ve zcela novém světle
“Díky této analýze se může svět vrátit o krok zpátky od jednotlivých článků a textů a získat jiný pohled na rozsáhlé vědomosti uváděné na Wikipedii, ne klasicky stránku po stránce. Můžeme sledovat, jak se jedna z největších encyklopedií vědomostí lidstva vyvíjela a i to, co nikdy předtím nebylo možné, jako například globální mínění v určitém čase a na určitém místě nebo „slepá“ místa v pokrytí vědomostí, ” řekl Franz Aman, ředitel oddělení marketingu a strategie společnosti SGI. “Rádi používáme Google Earth protože můžeme zvětšovat a dostat tak velký obraz. Se serverem SGI UV 2 můžeme použít stejnou koncepci na soubory dat, jejichž velikost je mimo schopnosti zachycovat, spravovat a zpracovávat data běžně používanými softwarovými nástroji v rozumném čase (tzv.Big Data).”
Z analýzy vyplynulo, že Wikipedia zaznamenává v historickém vývoji čtyři období rozvoje: 1001-1500 (středověk), 1501-1729 (rané moderní období), 1730-2003 (období osvícení), 2004-2011 (éra Wikipedie) a zdá se, že její neustálý rozvoj se zaměřuje na dokonalejší pokrytí historických událostí, spíše než na lepší zdokumentování současnosti. Zaměření zájmu Wikipedie v průměru každý rok úzce souvisí s nejdůležitějšími světovými událostmi, přičemž nejvíce negativně za posledních 1 000 let je hodnocena americká občanská válka a za ní 2. světová válka. Analýza rovněž ukazuje, že “mezera v kopírovacích právech”, díky které je většina digitalizovaných tisků z dvacátého století „vypouštěna“, nepředstavuje pro Wikipedii problém, neboť kapacita jejího pokrytí roste stabilně geometrickou řadou od roku 1924 až dosud.
Badatelé mají možnost vytěžovat Big Data odpovídající rychlostí
“Jednostranná povaha spojení, nedostatek odkazů a nerovnoměrné rozložení Infoboxů, to vše jsou omezení, která komplikují vytěžování metadat u kolekcí dat podobných Wikipedii,” řekl K. Leetaru. “Server SGI UV 2 s rozsáhlou sdílenou pamětí mi umožnil zasílat dotazy do celé databáze takřka v reálném čase. Díky ohromné kapacitě vyrovnávací sdílené paměti v konečcích prstů, jsem mohl jednoduše napsat několik řádek kódu, proběhnout celou databázi a ptát se na jakoukoli věc, která mi přišla na mysl. To se systémem horizontálního škálování není možné. Je to velmi podobné, jako když používáte textový procesor namísto psacího stroje - mohu provádět svůj výzkum zcela odlišným způsobem, zaměřovat se na výstupy a nikoli na algoritmy.”
Analytický přístup
Tento rozsáhlý soubor dat po nahrání do serveru SGI(R) UV(TM) 2000, tzv. „Velkého mozku“ (Big Brain computer), prošel geokódováním a kompletním kódováním dat ve fulltextu, s využitím algoritmů, které identifikují každou zmínku o každé lokalitě a každém datu ve všech příspěvcích na Wikipedii. Bylo extrahováno více než 80 milionů lokalit a 42 milionů dat v období od roku 1000 našeho letopočtu až do roku 2012. V průměru 19 lokalit a 11 časových údajů na jeden článek (každých 44 slov a 75 slov v uvedeném pořadí). Spojení každého data s každou lokalitou bylo zpracováno do rozsáhlé sítě, která představuje pohled na historii očima Wikipedie. Díky těmto nástrojům byl K. Leetaru schopen na serveru SGI UV 2 provést analýzu celého souboru dat takřka v reálném čase a vytvořit tak vizuální mapy času a prostoru, ve kterých lze nejen odhalovat historii, ale rovněž celkový pohled na svět v průběhu posledního tisíciletí, interaktivně testovat celou řadu teorií a vědeckých otázek a to vše za jediný den práce.
Nový SGI UV: „Velký mozek“ (The Big Brain computer)
Produkty řady SGI UV 2 umožňují uživatelům najít odpovědi na nejpalčivější problémy světa, a to díky systému, jehož správa je stejně jednoduchá jako správa pracovní stanice. S procesorem Intel(R) Xeon(R) řady E5, se standardním operačním systémem Linux a podporou celé řady možnosti ukládání dat, představuje server SGI UV 2 kompletní průmyslové řešení pro využívání počítačových technologií bez omezení.
Server SGI UV 2 lze používat již s pouhými 16 jádry a 32 gigabyty paměti a bez problémů rozšiřovat. Tato platforma nové generace zdvojnásobuje počet jader (až na 4096 jader) a čtyřnásobně navyšuje kapacitu koherentní hlavní paměti (až na 64 terabytů) oproti předchozí generaci, takže je k dispozici pro využití počítačových technologií pro rychlejší zpracování dat (in-memory computing) na systému single-image. SGI UV 2 lze rozšířit až na 8 petabytů sdílené paměti a při nejvyšší rychlosti I/O čtyř terabytů za vteřinu (14 PB/hodinu) dokáže projít veškerý obsah tištěné sbírky knihovny Kongresu USA za méně než tři vteřiny.
SGI UV 2000 je k dispozici. SGI UV 20 lze objednat již dnes, přičemž objednávky začnou být vyřizovány v srpnu 2012. Ceny začínají na 30 000 amerických dolarů.
O společnosti SGI
SGI, uznávaná jednička v oblasti nejnáročnějších výpočtů, vizualizace a zpracování dat, se zaměřuje na pomoc zákazníkům v řešení náročných podnikových a technologických požadavků. Více informací naleznete na internetové adrese sgi.com.
Se společností SGI se můžete spojit na síti Twitter (@sgi_corp), Facebook (facebook.com/sgiglobal), YouTube (youtube.com/sgicorp), a LinkedIn.
Fotografie a videa naleznete na adrese: http://www.sgi.com/go/wikipedia
(C) 2012 Silicon Graphics International Corporation. SGI a logo SGI logo jsou ochranné známky nebo registrované ochranné známky společnosti Silicon Graphics International Corp. Nebo ejjích dceřiných společností ve Spojených státech amerických a nebo jiných zemích. Intel a Xeon jsou registrované ochranné známky společnosti Intel Corporation. Všešchny ostatní ochranné známky a názvy jsou majetkem příslušných vlastníků.
Obrázky laskavě poskytl Kalev Leetaru
Fotografie/Multimediální galerie je k dispozici na adrese: http://www.businesswire.com/cgi-bin/mmg.cgi?eid=50313303&lang=en
Kontakty
Ogilvy Public Relations
Meghan Fintland, 415-677-2704
Zdroj: Silicon Graphics International Corporation
Tuto tiskovou zprávu si můžete prohlédnout online na adrese:
http://www.businesswire.com/news/home/20120618005389/en
Text této zprávy v původním, zdrojovém jazyce je oficiální verzí. Překlad této zprávy do jiných jazyků poskytujeme pouze jako doplňkovou službu. Text zprávy v původním, zdrojovém jazyce je jedinou právně závaznou verzí této tiskové zprávy.
(BW)