'글로벌 IT 뉴스'에 해당되는 글 1093건

  1. 2015.09.15 슈퍼컴퓨터 역사> 마지막 SMP 클러스터 머신 ASC Purple by 랩터 인터내셔널
  2. 2015.09.15 슈퍼컴퓨터 역사> 기동에 8시간이 걸린 ASCI Q (알파 프로세서) by 랩터 인터내셔널
  3. 2015.09.15 슈퍼컴퓨터 역사> 핵무기 모의 실험을 위해 태어난 ASCI by 랩터 인터내셔널

ASC Red Storm과 거의 같은 타이밍에 ASC(Advanced Simulation and Computing Program:선진 시뮬레이션 및 컴퓨팅 계획)의 100TFLOPS를 위한 계획도 시작된다. 이는 ASCI White의 후계 시스템에 해당한다. ASCI White가 10TFLOPS이므로 단순히 봐도 10배 성능의 시스템이다.

 

ASC Purple 시스템. 사진은 로렌스 리바모아 국립 연구소의 Tom Spelce의 논문에서 발췌


2002년 11월 19일 미국 에너지성과 IBM은 총 2억 9000만달러의 계약을 맺는다. 다만 이는 ASC Purple 뿐만 아니라 Blue Gene/L도 포함한 것이었다. ASC Purple이 100TFLOPS, Blue Gene/L이 300TFLOPS 이상이라는 이론 연산 성능으로 금액이 커져 단가당 연산 성능으로 말하면 기존의 ASCI/ASC 시스템을 훨씬 넘어선다.

 

ASC Purple의 부대 설비만 2억 3000만달러나 되는데(부대 설비 가격은 총액 2억 9000만달러로 계약금에 포함되지 않는다) ASC Purple만으로는 가격 대비 가치감은 떨어지고, 반대로 Blue Gene/L의 알뜰 구매 심리가 높은 것인데 이 중 Blue Gene/L은 다시 한번 설명하며 이번에는 ASC Purple에 대해서 설명한다.


ASC Purple은 초기 ASCI 계획의 총 정리, SMP(Symmetric Multiprocessing:대칭형 다중 프로세싱)+클러스터 구성을 취한 최후의 시스템이다. 그냥 이렇게 쓰면 약간 어폐가 있으므로 좀 더 자세하게 설명한다.

 

초기 ASCI 계획이라는 것은 1996년경에 책정된 이 로드맵에서 2002년경에 투입될 예정이었던 100TFLOPS를 실현한다는 의미다.



 

1996년경에 책정된 ASCI 로드맵. 2002년경 100TFLOPS를 실현할 계획이다


물론 계획 자체는 이전 연재 286회에서 설명한 대로 ASCI에서 ASC로 바뀌고, 지금은 1PFLOPS를 목표로 하고 계속 계산 능력의 증강을 위한 개발이 진행되고 있지만 100TFLOPS가 하나의 이정표인 것은 틀림없고 그 의미에서는 기념해야 할 위치에 있다.

 

마지막 SMP+클러스터지만 이 뒤에도 ASC는 계속 SMP+클러스터를 쓰고 있다. 다만 그 위상은 좀 다르다. 2021년경까지 ASC 로드맵에 따르면 ATS(Advanced Technology System)는 이 ASC Purple이 사실상 최후 SMP+클러스터 구성이며 이어지는 시스템은 기본 MPP(Massively Parallel Processing:초병렬) 베이스다.



 

2021년경까지 로드맵. ATS용 ASC Purple이 마지막 SMP+클러스터 구성이다


그런데 CTS(Commodity Technology Systems)는 Linux 기반의 머신을 클러스터 구성으로 잡은 것이 이후로도 계속 사용되고 있다. 다만 이쪽은 "Commodity"라는 이름과 같이 기존의 저렴한 시스템을 대량으로 나란히 한다는 것으로 피크 성능을 겨냥한 구성이 아니다.

 

지난번 Capability Computing의 얘기를 했지만 ASC로 말하면 ATS 시스템이 이 Capability Computing을 추구하는 라인업이며 한편으로는 CTS는 이와 짝을 이루는 Capacity Computing(계산 용량에 의한 컴퓨팅)을 목표로 한 시스템이다. 그러므로 ASC Purple는 정확히 말하면 Capability Computing을 겨냥한 마지막 SMP+클러스터 구성 머신이 된다.

 

그 ASC Purple은 2002년에는 POWER5 프로세서가 12554개 집적된 SMP+클러스터 구성으로 그 의미에서는 ASC White의 스케일 확장판이라고 생각하도 문제가 없을 것이다. 우선 그 POWER5 프로세서에 대해서 설명한다.


POWER3 까지 개발 경위는 연재 290회까지 거론했기에 POWER4부터 이야기를 시작하고 싶다.


POWER4 프로세서는 1999년 10월 MicroProcessor Forum에서 처음 발표된다. 다만 이때는 내부 구조 자체는 발표되지 않고 1GHz 이상이 가능하다고만 소개됐을 뿐이다.

 

오히려 특징은 2개의 CPU코어와 공유 2차 캐시 및 3차 캐시, 그리고 프로세서 간 커넥트를 1칩화한 것이다.

 


1999년 10월에 개최된 MicroProcessor Forum에서 IBM의 설계 주임 Jim Kahle에 의한 POWER4 발표 슬라이드. 이 발표의 취지는 프로세서 성능은 명령어 집합식이 아니라 얼마나 메모리 대역을 확보하느냐에 달렸다는 것이었다


이 칩을 4개 내놓고 MCM(Multi-Chip Module)화된 8P프로세서도 구성할 수 있다는 것이 밝혀졌다. 그리고 다이 구역은 오른쪽 아래 사진처럼, 코어의 절반을 2차 캐시가 선점한다.


8P프로세서 구성. 프로세서 간의 링크 속도는 CPU 동작 주파수의 절반으로 예를 들면 1GHz구동이라면 500MHz다. 버스 폭은 쌍방향 32bit POWER4의 2차 캐시는 최대 1.5MB, 3차 캐시는 최대 32MB까지 지원


내부 구조는 2001년에 발표된 것이지만 정수 연산과 부동 소수점 연산을 각각 동시에 2명령으로 실행 가능한 슈퍼 스칼라 라는 구조, 그리고 Out of Order의 구현 그 자체는 POWER3을 따르고 있다.


다만 파이프 라인은 정수 연산에서 12~14단, FPU는 17단으로써 0.22μm 프로세스에서도 450MHz가 종점이었다. POWER3-II에 POWER4는 0.18μm 프로세스에서 1.1GHz 구동, 0.13μm으로 미세화한 POWER4+에서는 1.9GHz 구동이 가능하게 되어 있다.

 


POWER4의 파이프 라인. 이 슬라이드는 2003년 POWER5 발표때의 것이지만 2001년 MicroProcessor Forum에서 발표된 슬라이드를 재게한 것


이 POWER4를 다중 스레드로 확장한 것이 POWER5로 메모리 컨트롤러도 내장됐다. 2차 캐시 용량도 1.875MB까지 증량되어 3차 캐시는 36MB로 확장됐다.


POWER4의 파이프라인과 비교했을때 색깔이 있는 부분이 멀티 쓰레드로 확장된 부분. 파이프 라인 그 자체에는 큰 변경은 없다 POWER4의 다이어그램과 비교하면 기본적인 골격은 변하지 않았지만 L3 Directory/Control의 크기가 늘어남과 동시에 메모리 컨트롤러(MC)가 추가된 관계로 약간 크다


CPU 다이 4개와 3차 캐시×4를 하나로 모듈화 한 MCM(Multi-Chip Module)은 한변이 95mm라는 거대한 것이었다. 동작 주파수는 당초 발표된 0.13μm SOI 프로세스를 사용한 것이 최대 1.9GHz, 프로세스를 90nm SOI로 미세화한 POWER5+는 당초 발표된 것은 1.9GHz가 종점이었으나 뒤이어 2006년에는 2.3GHz 까지 상승됐다.


POWER5의 개요. 이 사진은 CG 또는 프로토 타입 같고, 양산품에서는 다이 주변 콘덴서의 배치수가 증가하면서 배치도 다르다



자 이야기를 ASC Purple로 돌린다. ASC Purple은 POWER5 프로세서(POWER5+는 아님)을 탑재한 IBM System P5 575라는 머신이 이용됐다.

 

원래 POWER5는 최대 8프로세서(16코어)까지 쉽게 구성할 수 있도록 배려하고 있지만 ASC Purple에서는 이 8프로세서 구성을 하나의 노드로 8코어가 이용됐다.

 


ASC Purple은 8프로세서 구성이 1개의 노드로 된 구성이다. 


System P5 575라는 머신은 클러스터 구성 전용 특수 시스템으로 취급되어 1.9GHz 구동 POWER5 칩을 쓰면서 CPU 코어의 한쪽을 무효화하는 독특한 사용 방법이 적용됐다.


이에 따라 공유 2차/3차 캐시 및 메모리를 한쪽 CPU 코어에서 점유할 수 있기 때문에 성능이 올라간다는 사치스러운 구성이다. 하드웨어적으로 IBM System P5 570과 달리 독특한 구성이 이용됐다.


일반적인 System P5 570의 경우는 1개의 POWER5 칩과 DIMM 슬롯×8, 그리고 SMI-II라는 DIMM 버퍼를 탑재한 DCM(Dual-chip Modules:CPU 카드 명칭)를 2장을 하나의 케이스에 담은 형태다.

 


System P5 570의 DCM.SMI-II는 DDR2 DIMM을 채널당 4장 장착하기 위한 버퍼 칩. 메모리 자체는 DDR2-533의 512MB DIMM이 이용됐다는 설명이 있다


1대의 케이스 내부 구조. 왼쪽 아래 2장이 POWER5 프로세서 카드


이 2장의 카드는 8프로세서 구성으로 말하는 종방향 결선이 된다. 가로 방향은 케이스 간을 전용 케이블로 잇는 것으로 구현되어 있다.



프로세서간 접속 전용 케이블이 복수 준비


이에 비해 System P5 575는 8개의 DCM과 DCM마다 8슬롯의 DIMM, 전원 유닛과 냉각팬이 2U의 섀시에 붙어 있다.



로렌스 리바모아 국립 연구소의 ASC Purple 설명 페이지에서 발췌. 이 페이지의 설명에서 DDR 메모리가 장착될 수 있게 설명되고 있다 이것도 설명 페이지. 중앙의 검은 부분이 POWER5 프로세서로 그 앞뒤를 DIMM과 SMI(SMI2)가 감싸는 형태로 되어 있다


2U로 16way SMP(ASC Purple의 경우는 실제로는 8way) 접속이 되는 형태다. 참고로 메모리가 DDR인지 DDR2인지는 확실하지 않다.

 

원래 POWER5 자체는 어느 쪽도 가능하며 SMI을 사용하면 DDR 지원, SMI2을 사용하면 DDR2 대응인데 로렌스 리바모아 국립 연구소의 설명 페이지에는 DDR×8 구성으로 설명되고 있다.

 

한편 로렌스 리바모아 국립 연구소의 Tom Spelce가 2006년 SCI COMP 12에서 발표한 "Early Performance Results from the LLNL/NNSA Purple Computer"라는 논문에서는 분명히 DDR2 512MB라고 설명되어 있다.


그래서 초기 시스템은 DDR 기준, 나중에 추가한 부분은 DDR2 기반으로 혼재 하고 있었는지도 모른다.


앞 페이지에서 설명한대로 System P5 575는 8P 구성 SMP 머신이 1노드인데 이를 1536노드 연결한 것이 ASC Purple이다.


IBM System P5 575를 1536노드 연결한 것이 ASC Purple이다. 노드 자체는 1548+2로 1550개 존재한다. 로렌스 리바모아 국립 연구소의 Tom Spelce의 논문에서 발췌


역시 단일 스위치로 1536노드의 커버는 완전하지 않는 것이었고 실제로는 3개 수준의 트리 구조로 어디선가 들은 듯한 구성이다.


3개 수준의 트리 구조가 된 네트워크 개념도


ASCI Q는 단순한 FAT 트리지만 ASC Purple은 omega 네트워크 구성으로 단순히 수준 수가 같아도 동일하게는 비교할 수 없다. 또 ASC Purple의 경우 2U 유닛 하나에 1노드 및 하나의 섀시에 12노드 분을 구성할 수 있었다.



1개 섀시에 12노드 분을 거두며 전원부가 최상단인게 흥미롭다. 이것도 ASC Purple 설명 페이지에서 발췌


때문에 전술한 네트워크 개념도에서의 Level 1 Switch는 섀시의 하단에 넣어 배선이 짧고 고속으로 접속된다. 아래의 사진이 Level 1 Switch의 내부 구조로 4×4 Swicth를 사용하고 32포트의 스위치가 구성되어 있다.


스위치 유닛 구조. 하나의 스위치 레이턴시는 59나노초이므로 같은 섀시 내부의 다른 노드와의 통신은 118나노초+α(배선 지연 분)로 통신할 수 있게 된다. 설명 페이지에서 발췌


이 중 16포트가 노드에 할당되고 남은 16포트가 다른 프레임 접속에 이용된다. Level 2이상은 본래 네트워크가 이중화되어 Level 2가 192, Level 3가 96 노드수가 된다.



스위치의 구조. ASC Purple 본체 이외의 시스템도 있고 스위치는 섀시 192개 분이 준비되어 있다



Tom Spelce의 논문에서는 최대 8192노드까지 범위로 대역과 레이턴시 측정을 하고 있으나 대역은(통신 메시지나 송신 방법에 의하지만)대체로 목표인 "이론 대역의 45%"라고 하는 효율에 가까운 숫자를 달성했다.


또 레이턴시는 멀티 프로세서 시스템에서 이용되는 MIP_Allreduce라는 함수를 실행하기 위한 소요 시간이 8192노드의 경우 150마이크로초 전후로 억제되고 있음이 알려졌다.


다음에는 납품하는 시스템이다. 지금까지 설명했던 대로 ASC Purple는 POWER5를 기반으로한 시스템이지만 이것이 공식 발표된 것은 2005년으로 납품을 시작해도 애플리케이션 대응 등이 늦어지게 된다.


거기서 우선 2003년부터 2004년까지 EDTV(Early Delivery Technology Vehicles)로서 POWER4 베이스의 IBM pSeries p655를 기반으로 한 UM 및 UV라는 시스템이 도입된다. 이는 모두 8P 구성 1.5GHz POWER4 머신을 128노드 연결된 소규모 시스템이다.


이어 2004년 말부터 2005년까지 UP(Unclassified Purple)라는 System P5 575의 108노드 구성의 머신과 1536노드의 Purple이 병행하여 설치되어 2005년 7월 22일에 이용이 가능했다.


로렌스 리바모아 국립 연구소에 납품된 ASC Purple


이 중 1280노드(10240코어)를 이용해 LINPACK을 실행한 결과는 63.4TFLOPS로 이론 성능인 77.8TFLOPS의 81.5%에 이르고, 2005년 11월 TOP500에서 3위에 올라선다. 다음 2006년 6월에는 1526노드(12208코어)로 75.8TFLOPS에 도달해 계속 3위를 확보하는데 성공한다.

 

효율도 81.7%로 다소 개선되고 있으며 2010년 11월 19일 서비스 종료까지 거의 100TFLOPS에 가까운 플랫폼으로서 활용되어 왔다. 가장 절대 성능은 어쨌든 시스템 가격과 운용 비용이 역시 문제시 된다.

 

운용 비용으로 문제가 된 것은 주로 전기세 때문으로 시스템은 7.5MW의 전력을 소비하며 또 발열은 매시간 160만 BTU(British thermal unit:영국 열량)에 이르렀기 때문에 냉각 비용도 만만치 않았다.

 

이후 IBM은 PowerPC 기반의 MPP 방향으로 진입하게 된다.


출처 - http://ascii.jp

 

반응형
Posted by 랩터 인터내셔널

이번 슈퍼 컴퓨터 계보는 ASCI Q를 설명한다.

 

ASCI Q

 

처음은 30TFLOPS, 이어 100TFLOPS를 겨냥한 ASCI Q

지난번 처음 언급한 대로 ASCI의 다음 타깃은 30TFLOPS 다. 맨 처음 계획은 1998년 중에 계약을 마쳐 2001년 중에 운용에 들어가는 것을 목표로 했다. 다만 여러가지 시스템 선정이 늦어져 최종적으로 에너지부가 ASCI Q에 추가로 COMPAQ과 계약한 것은 2000년 8월 22일이다.

 

이때 계획은 375시스템의 Alpha GS320 Server를 납입하고 30TFLOPS를 노렸다. 나중에 이 시스템을 Alpha EV7 내지 Alpha EV8로 업그레이드하는 것으로 100TFLOPS를 염두에 둔 옵션도 마련됐고 최초의 시스템은 2002년 이른 시기에 100TFLOPS, 업그레이드 시스템은 2004년에 각각 운용을 개시하기로 했다.

 

계약 금액은 약 2억달러로 당시 환율로 환산하면 대략 210억엔 정도 되고, ASCI White의 두배다. 참고로 이건 ASCI Blue Mountain의 후계로서 로스앨러모스 국립 연구소에 설치됐지만 ASCI Blue Mountain 자체는 2004년 11월까지 운용되고 있어 다른 설치 장소가 필요했다.

 

이 때문에 로스앨러모스 국립 연구소는 ASCI Q에 맞춰 SCC(The Stragegic Computing Complex)로 불리는 건물을 6400만달러를 들여 건설했다. 그리고 이 건물은 2002년에 "Nicholas C. Metropolis Center for Modeling and Simulation"으로 명명.


 

ASCI Q에 채용된 첫 64bit RISC 프로세서 "Alpha"

 Alpha Server에 이용되고 있는 Alpha라는 프로세서에 대해서 좀 소개해 보고 싶다. Alpha 프로세서는 원래 DEC(Digital Equipment Corporation)이라는 회사가 1980년대 후반부터 개발을 시작한 칩이다.

 

이 회사는 원래 PDP 16bit의 머신을 개발·판매한 업체다. 첫 Unix는 PDP-7로 UNIX가 널리 보급되게 만든 System V6는 PDP-11상에서 동작하고 있으며 이것을 목적으로 PDP-11을 도입한 사이트도 적지 않았다고 한다.

 

DEC는 PDP-11에 이어 완전한 가상 기억에 대응하는 32bit OS를 지원한 VAX로 불리는 프로세서가 아닌 시스템을 1977년에 발표, 주류는 이쪽으로 넘어간다.

 

VAX는 프로세서 아니라 시스템인 것은 당시 기술로는 CPU 칩 하나로 극복하는 것이 아니라 대대적인 기판에 여러개의 칩을 조합하는 CPU 보드의 구성을 취하고 있었기 때문이다.

 

그 후 이 회사는 VAX의 고성능화와 원칩화를 추진하고 설계 기술이 어쨌든 반도체 제조 기술에 뒤져 1980년대 후반이 되면서 성능 면에서 타사(주요 경쟁은 IBM이었는데 그 외에도 많은 업체가 DEC의 시장에 성능/가격으로 도전해 왔다)에 추월당해 버렸다.

 

이 열세를 한꺼번에 뒤엎기 위해 복수의 프로젝트가 진행했고 그 중에 PRISM이라는 코드명으로 알려진 RISC프로세서 프로젝트도 포함됐다. Alpha는 이 PRISM에서 많은 성과를 이용하면서 첫 64bit RISC 프로세서로 다시 개발이 시작된다.



 

OS의 이식을 용이하게 하는 프로세서 EV4 "Alpha AXP 21064"

 

처음에 등장한 것이 "Alpha AXP 21064"칩으로 통칭 EV4로 불린다. EV는 "Extended VAX"의 약어로, 4는 이용한 프로세스 노드(CMOS-4:0.75μm)를 나타낸다. 이에 앞서 EV3이라는 CMOS3(1.0μm 프로세스)를 이용한 테스트 칩도 제조됐지만 이쪽은 다이 사이즈의 제한도 있어서인지 FPU가 없는 설계가 되어 있어 양산에 이르지 못했다.


그 EV4의 내부 구조는 아래의 사진과 같다. 명령 디코딩을 하는 IBoX, 정수 연산을 행하는 EBox, 부동 소수점 연산을 행하는 FBox와 주소 제어를 하는 ABox라는 4개 블록, 이것에 캐시와 레지스터 파일로 구성된다.

 


EV4의 내부 구조. 이것은 대략적인 것으로 실제로는 좀 더 복잡하다. 캐시 크기는 명령 데이터에 8KB. IEEE Micro June 1993의 "The Alpha AXP Architecture and 21064 Processors"


다이 크기는 14×17mm의 238mm2, 트랜지스터 수는 168만개라고 발표됐다. 동작 주파수는 최대 200MHz이며 이는 당시로서는 상당히 빠른 축에 든다.

 

명령 세트는 독자적인 것으로 VAX와 호환성은 없다. 원래 64bit로 확장한 시점에서 명령의 호환성을 유지하는 것은 어렵고 그 보다 VAX는 CISC의 명령 세트를 추가 하면 RISC의 이점을 다 깨뜨릴 수 있기 때문이다.


다만 컴파일(및 최소의 수정)으로 어플리케이션을 이행할 수 있는 배려가 이루어졌다. 그 으뜸가는 것이 PALcode(Privileged Architecture Library code)로 이름대로 특권 명령을 커스터마이즈 할 수 있는 것이다.


Alpha의 경우 동사가 제공하던 VMS라는 OS가 4단계 수준의 보호 메커니즘을 필요로 하는 한편 UNIX는 2차원에서 구현되어 있었다. 그 외에도 Windows NT의 이식이 예정 되었으며 이러한 OS의 요구에 따라 다른 PALcode를 제공함으로써 OS의 이식을 용이하게 하겠다는 배려가 이루어졌다.


또 일부 명령은 하드웨어에서 구현하지 못하고 이를 커버하기 위해 Trap barrier한 구조가 준비되고 있다. 이것은 "정의되고 있지만 구현되지 않은" 명령이 도달한 경우에 발동되어 통상적인 명령 처리를 중단하고 소프트웨어에서 이를 처리하라는 것이다. 이런 장치를 가진 프로세서는 Alpha 이외 별로 접한 적이 없다.


파이프 라인은 아래 사진에서 정수 연산과 부동 소수점 연산을 동시에 벌이는 In-Order의 2-way 슈퍼 스칼라 구성이다. 다만 2명령 동시 실행이라고 해도 정수 연산은 1명령/사이클이라 실효 성능이 다소 뒤떨어진다.

 


EV4의 파이프 라인. 정수로 6스테이지, 부동 소수 점에서 9스테이지는 당시로서는 긴 편에 속한다. 출처는 앞의 사진과 마찬가지

 

이 회사의 자료에 따르면 200MHz의 EV4의 성능은 SPECint92가 104.3, SPECfp92가 200.4으로 알려졌다. 약간의 후가 되는 1994년에 투입된 P54C 기반의 Pentium 100MHz가 각각 95.0/86.1, 혹은 1994년에 투입된 100MHz의 PowerPC 604가 각각 105.9/108.2라는 스코어를 냈고 동작 주파수와 비율을 생각하면 부동 소수점 연산 성능은 정수 연산 성능 만큼 충분하다고는 말할 수 없었다.

 

거기에서 1993년 10월에서 1994년에 투입된 것이 EV45의 Alpha AXP 21064A이다. 이것은 프로세스를 CMOS5(0.5μm)에 미세화하고 캐시 크기를 명령/데이터 모두 16KB로 강화했다. 또 FPU의 성능 개선이나 분기 예측 장치의 버퍼 확충 등 세세 부분에 수정을 가하는 동시에 작동 주파수를 최대 300MHz까지 끌어올리는 데 성공한다.

 

 

EV4 2배 크기의 슈퍼 스칼라 EV5 "Alpha 21164"

1995년에는 후계로 EV5의 "Alpha 21164"가 투입된다. 4명령을 동시 실행하는 EV4의 2배 크기의 슈퍼 스칼라가 최대 특징이다.

 

이에 따른 정수 연산 성능을 대폭 올리고 부동 소수점에서는 덧셈과 곱셈을 동시에 할 수 있었으므로 MAC 연산이 외관상 1사이클에서 시행될 수 있게 된 점도 크다.

 


EV5의 구조. 이전의 영상과 비교해 보면 FPU명령이 8단으로 처리가 끝나는 등 약간의 차이가 있지만 기본적으로는 21064의 실행 유닛을 배가시킨 느낌이다. 출처는 "Alpha 21164 Microprocessor Data Sheet"(EC-QP98C-TE)

 


참고로 EV5 자체는 최대 333MHz(당초는 300MHz로 한 것) 구동으로 알려졌지만 이 후계로 EV56 이 1995년 말에 발표돼 1996년부터 양산한다. 이것은 프로세스를 CMOS5(0.5μm)에서 CMOS6(0.35μm)로 미세화 한 버전으로 최대 작동 주파수는 700MHz에 달했다.

 

SPEC CPU 95의 결과를 보면 612MHz 구동의 Alpha 21164는 SPECint95 18.4/SPECfp95 20.8이란 점수가 제시되고 있다. 이 결과 테스트 시기(1997년 9월)에 가까운 것을 찾자 인텔의 Pentium 233MHz가 각각 7.03/5.18, IBM의 332MHz Power604e가 12.9/6.21이며 이 세대의 프로세서와 비교하면 머리 하나가 더 있는 성적을 유지하고 있다.

 


 

Out-of-Order를 구현한 EV6 "Alpha 21264"

 

이어 1996년 10월 Microprocessor Forum에서 EV6 "Alpha 21264"가 발표된다. 내부 구조는 4-way 슈퍼 스칼라라는 점은 EV5와 함께 끝내 Out-of-Order를 구현하게 됐다.

 

이에 따라 ALU 구조가 크게 변화하고 있다. 아래의 사진이 21264 내부 구조지만 정수 연산부는 2반 ALU와 그와 대칭되는 주소 계산 단위가 준비되어 있다.

 


21264 내부 구조. MicroDesign Resources의 Microprocessor Report Oct 28,1996에서 발췌. 이는 MicroProcessor Forum에서 발표한 것

 

주소 계산 단위의 역할은 정수 연산에 따른 메모리 액세스가 발생할 경우 이를 처리하는 것이다. 이는 AMD의 K7 등과 가까운 발상이지만 Alpha의 설계 팀이 통째로 AMD로 이동하고 개발을 했으니 당연히 같다고 해야 할까.

 

파이프 라인은 정수 연산이 7스테이지, 메모리가 9스테이지, 부동 소수점 연산이 10스테이지로 Out-of-order를 구현한 것 치고는 적다고 느껴진다.


프로세스는 계속 CMOS6을 이용해 당초 동작 주파수는 500MHz으로 알려졌다(참고로 이 발표 시점에서는 EV56도 아직 500MHz 구동이었다).

 

소비 전력은 이 500MHz 버전에서 60W로 추정되고 있으며 훌륭한 크기지만 최종적으로 600MHz 까지 작동 주파수는 올라 소비 전력은 110W에 달했다.

 

이 EV6의 개량형으로 Samsung의 0.25μm 프로세스를 이용하고, 동작 주파수를 833MHz까지 올린 것이 EV67로 이는 1999년 말에 시장에 투입된다.


또 2000년에는 IBM의 0.18μm+구리 배선 프로세스를 이용한 EV68C가 샘플 출하를 시작해 최종적으로 1.25GHz까지 동작 주파수가 상승했다. ASCI Q에서 이용된 것은 이 1.25GHz 구동의 EV68C.

 

 

EV8까지 이어지는 후계 프로세서

2002년에는 EV68 코어를 이용하면서 대용량 2차 캐시와 4ch의 Direct RDRAMr, 그리고 프로세서 간을 하이퍼 큐브 구성의 전용 링크로 접속하기 위한 라우터를 추가한 EV7 "Alpha 21364"이 발표된다.


각 프로세서에 직접 메모리를 접속함으로써 성능 향상을 도모한 EV7. 출처는 2001년 Hot Interconnects에서 발표된 논문 "The Alpha 21364 Network Architecture"


당초는 1999년 중에 테이프 아웃해 2000년에는 양산 예정이었으나 실제 테이프 아웃은 2001년 4월까지 지연되면서 출하는 2002년에 들어선다. 최고 작동 주파수는 EV68처럼 1.25GHz으로 알려졌지만 실제 제품은 최대 1.15GHz가 종점이 됐다.

 

이를 IBM의 0.13μm SOI 프로세스로 동작 주파수를 1.45GHz까지 올릴 예정이었다 EV79는 2003년에 취소되며 프로세스를 바꾸지 않고 1.3GHz까지 동작 주파수를 올린 EV7z이 1994년에 투입되고 이것이 마지막 Alpha가 되었다. 계획에서는 또 4-way SMT를 채용한 EV8도 있었지만 이것도 취소되고 있다.

 


EV8의 파이프 라인. 기본적으로는 EV7의 CPU 코어를 4스레드 대응 SMT 하는 것 이외는 EV7과 같은 구성으로 되어 있었다. 출처는 1999년 Microprocessor Forum의 EV8의 프레젠테이션 자료

 

COMPAQ이 DEC를 인수해 ASCI 프로젝트에 참여

이 Alpha를 설계·제조하던 DEC는 1990년대 전반부터 급속히 실적이 악화됐다.


DEC의 실적은 회복되지 않고 결국 1998년 6월 이 회사는 COMPAQ에 인수됐다. COMPAQ은 매우 강력한 서버 제품의 라인 업을 손에 넣고 이를 바탕으로 ASCI 프로젝트에 참여하기로 결정했다.

 


ES45라는 머신 3000대로 30TFLOPS를 실현할 계획


결과적으로 COMPAQ은 떳떳하게 ASCI Q라는 명칭으로 30TFLOPS의 프로젝트를 수주할 수 있었다. 그곳에서 Alpha GS320을 바탕으로 이 시스템을 구축할 예정이었다. 베이스가 되는 것은 AlphaServer ES45로 불리는 4프로세서/최대 32GB 메모리의 8U 랙형 머신이다.


ES45 내부는 아래의 사진처럼 4개의 CPU와 최대 32GB의 메모리, 그리고 PCI 버스가 칩셋(스위치)에 닿아 있는 셈이다. 이 ES45 1대당 성능은 1.25GHz 구동이라면 10GFLOPS가 되므로, 30TFLOPS를 실현하기 위해서는 ES45가 3000대 있으면 되는 셈이다.

 


이는 1GHz 구동의 예이므로 1.25GHz 구동의 경우 CPU와 스위치 사이의 대역은 5GB/sec(64bit@625MHz)가 되고 있다고 생각한다. 출처는 앞의 사진과 마찬가지


Alpha GS320 Server는 8개의 AlphaServer ES45를 전용 글로벌 스위치로 접속하게 되며 이것이 375대 설치되어 375×32=1만 2000CPU로 30TFLOPS인 셈이다.



Alpha GS320 Server는 8개의 ES45 칩셋들을 상호 접속 함으로써 32way의 SMP가 구성된다. 출처는 COMPAQ이 낸 카탈로그 "Compaq AlphaServer GS80/GS160/GS320"(JSV0185-05)


자, 이걸 어떻게 연결시킬 것인지가 다음의 문제지만 COMPAQ는 당시 Quadrics사의 Network(QsNet)를 이용하고 있었다. 이 QsNet 용 어댑터는 Elan으로 불리며 ES45의 64bit/66MHz PCI 버스에 장착된다.


Elan 어댑터의 내부 구조. 참고로 Thread Processor는 32bit의 SPARC 프로세서가 이용되고 있었다고 한다. 출처는 로스앨러모스 국립 연구소가 2001년 Hot Interconnects에서 발표한 논문 "The Quadrics Network(QsNet):High-Performance Clustering Technology"


이와 짝을 이루는 것이 Elite로 불리는 스위치로 8개의 링크를 가질 수 있다. 이 Elite로 Fat-tree의 구조를 형성하는 방식으로 AlphaServer ES45 사이를 접속했다.


동그라미가 Elan, 사각이 Elite. 대수가 많아서 Fat Tree 자체가 2단 구성으로 되어 있을게 분명하다. 출처는 로스앨러모스 국립 연구소가 2003년 Hot Interconnects에서 발표한 "Scalable Collective Communication on the ASCI Q Machine"


Elite 자체는 8개의 링크를 갖고 4up/4down 구성이지만 2/3단 Tree의 노드에는 이것으로 부족해 Elite자체를 여러개 조합해 2단은 16up/16down, 3단은 64up/64down이라는 강렬한 스위치를 만들고 있다.

 

당연히 성능은 별로 좋지 않아 예를 들면 대역은 128노드 부근까지는 250MB/초 이상을 유지하는 것이 거기에서 급격히 악화되어 1024노드에서는 100MB/초 정도다.

 

노드 간 동기를 취하는 장벽의 처리를 할 경우 하드웨어 기반에서는 1024노드에서 10마이크로 초 정도지만 소프트웨어 베이스에서는 30마이크로 초를 요하는 등 노드 수가 늘어나면 성능이 급격히 나빠지는 것으로 확인됐다.

 

 

20TFLOPS서 끝난 ASCI Q

ASCI Q의 문제는 더 근본적인데 있었다. 2001년 6월 COMPAQ은 Alpha 프로세서의 개발을 2004년까지 중단하고 이 회사의 소프트웨어 자산을 Itanium으로 이행하는 것을 발표했다. 이 결과로 당초 발표된 EV7/8 베이스의 시스템에서 100TFLOPS라는 계획이 틀어졌다.

 

다음 2002년 6월, 로스앨러모스 국립 연구소의 내부에서 ASCI Q가 예정대로 진행되지 않은 것이 익명으로 고발됐다. 원래 10TFLOPS에서 1.25GHz의 EV68이 1024노드(4096 프로세서) 설치되어 있어야 했지만 실제로는 1GHz의 EV68이 납품되고 8TFLOPS 상당의 성능일 뿐 이라는 것이었다.

 


1/3의 머신이 설치된 상태에서의 ASCI Q의 사진. 출처는 Natural Resources Defense Council 이 2004년 4월에 공개한 "WEAPONEERS OF WASTE"


이때 로스앨러모스 국립 연구소의 대변인은 이는 3단계로 나눠진 납품의 첫편이며 2002년 말까지는 30TFLOPS의 머신이 설치된다고 했다.

 

다만 이후도 스케줄대로는 설치가 진행되지 않고 2004년도의 핵안전 보장국의 예산 요구 중에서 ASCI Q의 일정이 지연되고는 있지만 최종적으로 30TFLOPS의 머신을 설치하는 것이 제시됐다.

 

2005년도 요구에서는 "20TFLOPS의 ASCI Q가 운영된다"로 변해 버렸다. 요컨대 COMPAQ은 20TFLOPS 분의 머신 밖에 납입하지 못한 셈이다.

 

도대체 무엇이 있었는지는 여기에서 알기 어렵고, Delivering Insight ASCI에 이르러서는 마치 처음부터 30TFLOPS의 계획은 없었던 것처럼 "2000년에는 20TFLOPS의 피크 성능을 가진 ASCI Q 시스템이 로스앨러모스 국립 연구소에 설치된다"로 슬쩍 흘리고 있는 모습, 뒤에서 어떤 소동이 있었는지 생각하는 것도 두렵다. 최종적으로 ASCI Q는 2048node/8192 프로세서로 구성되어 끝났다.

 

더 나쁜 것은 그 ASCI Q가 그 전의 ASCI Blue Mountain에 비해 실제로는 시스템 안정성이 나쁜, 2002년 시점에서는 쓸모 없다고 판단되고 있던 것이다.

 

2003년 2월 핵안전 보장국은 "로스 앨러모스 국립 연구소가 W76 트라이던트 SLBM(잠수함 발사 탄도 미사일)의 3차원 시뮬레이션을 ASCI Blue Mountain에서 실시한다"고 밝혔으나 실제로는 ASCI Blue Mountain에서 ASCI White를 원격으로 접속해 거기에서 시뮬레이션을 했다는 트릭은 나중에 밝혀지고 있다.


즉 Blue Mountain 위에서는 ASCI를 목적으로 한 핵 실험에 대한 애플리케이션은 거의 가동되지 못하고 ASCI Q로 이행시키지 않았던 것으로 보인다. 또 ASCI Q의 기동에 대부분 8시간을 요했다는 수치도 있고 무언가 있을 때마다 8시간을 기다리지 않으면 안 된다는 것은 가동률을 높이 유지하기 위해 방해가 된 것 같다.

 

성능 면에서는 TOP500에서 2003년 랭킹 2위로 잡힌 것 그것이 피크였다(참고로 이때 1위는 어스 시뮬레이터).

 

이 어스 시뮬레이터가 87.5%(이론 성능 40.96TFLOPS에서 실효 성능 35.86TFLOPS)에 이르는 것과 비교하면 상당히 뒤떨어진다.


그리고 로스앨러모스 국립 연구소가 2002년에 펴낸 카탈로그에 따르면 10.24TFLOPS 구성 상태에서 Linpack 벤치 마크를 실시하고 7.727TFLOPS의 실효적 성능을 발휘했다고(효율 75.48%) 하고 있어 인터 커넥트에 장애가 있는 것은 분명하지만 그렇다고 그렇게 간단히 해결 될 문제도 아니다.


그래서인지 2003년경부터 로스앨러모스 국립 연구소는 "기타 용도"에 ASCI Q가 이용될 수 있는 것을 적극적으로 알리기 시작해 2005년에는 로스앨러모스 국립 연구소의 Department of Theoretical Biology and Biophysics에 속하는 Kevin Y. Sanbonmatsu 박사가 ASCI Q에서 리보솜의 전사 움직임을 분자 수준에서 시뮬레이션하는데 성공한 것 등을 어필하기도 했지만 이미 때늦은 것으로 본질적인 해결은 잘 되지 않은 모양이다.

 

핵안전 보장국의 Accomplishment(업적)이라는 페이지를 보면 2003년도 회계에 이미 ASCI Q는 "retired from service"(은퇴)라는 끔찍한 것이 적혀 있다.

 

운용 자체는 2007년까지 계속 되었지만 정작 ASCI에서는 바로 발을 빼버렸던 형태로 그 의미에서는 2억달러를 시궁창에 버렸다는 평을 받는 것도 어쩔수 없다고 생각된다.

 


출처 - http://ascii.jp

반응형
Posted by 랩터 인터내셔널

슈퍼 컴퓨터의 계보, 이번부터 ASCI의 이야기를 한다. ASCI는 Accelerated Strategic Computing Initiative의 약어로 "가속적 전략적 컴퓨팅·이니셔티브" 라는 신비한 역어도 있다.

 

현재는 ASC(Advanced Simulation and Computing program:선진 시뮬레이션 및 컴퓨팅 계획)이라는 명칭으로 바뀌고 있다.


 

 

ASCI Blue Mountain

 

핵 실험 시뮬레이션을 위해 태어난 ASCI

이 ASCI가 성립 된 배경을 먼저 해설한다. 이야기는 1995년 11월로 거슬러 올라간다. 클린턴 대통령은 CTBT(Comprehensive Nuclear Test Ban Treaty:포괄적 핵 실험 금지 조약)을 비준할 방침을 밝힌다.

 

클린턴 대통령은 1996년 9월에 이에 서명하지만 상원은 원래 비준에 관한 심의를 거부, 최종적으로 1999년 10월에 상원에서 심의에 들어간(여기에 이르기까지 꽤 우여곡절이 있었다)것의 비준은 부결된다.

 

이어 부시 정권은 핵 폭발을 동반하지 않은 임계 핵 폭발 실험을 진행했고 CTBT 자체가 아직 모든 핵 보유국의 비준을 받지 않은 발효 상태였기 때문이지만 이 역사 자체는 본론은 아니므로 여기까지 한다.

 

이야기를 1995년 11월로 되돌리면 미국 정부로서는 CTBT 비준 방침을 밝힌 이상 그것이 실현 된 경우에 대비할 필요가 있다.

 

구체적으로는 SSMP(Stockpile Stewardship and Management Program:비축 탄두 유지 관리 계획, Management를 뺀 SSP:Stockpile Stewardship Program라고 하는 경우도 있다)를 핵 실험 없이 어떻게 수행할지 입안할 필요성이 생겼다.


핵무기를 유지할 때 그 안전성 및 신뢰성을 확인한다는 것은 핵무기의 성격상 필요하며 지금까지는 정기적으로 핵 실험을 한 형태로 실시했지만 CTBT는 이러한 핵 실험 자체를 금지하는 것이어서 다른 수단이 필요하다.


거기서 실제 핵 실험 대신 컴퓨터 시뮬레이션으로 이를 실시한다는 아이디어가 나왔다.

 

단순히 생각해도 여러가지 문제는 많다. 시뮬레이션을 할 경우 정밀도를 보장하기 위해서는 어딘가에서 실제 결과와 비교할 필요가 있으므로 핵 실험을 즉각 중단하면 이 정도의 담보가 매우 어려워진다.

 

실제 미국에서도 이것도 대해 여러가지 분규 했으나 그것도 본론은 아니므로 여기는 생략한다. 중요한 것은 CTBT 비준에 의해 정밀한 핵 실험 시뮬레이션이 가능하게 하는 시스템이 필요하게 되었다는 것이다. 이에 따라 DoE(Department of Energy:미국 에너지부)가 책정한 것이 ASCI.

 

즉 ASCI는 SSMP의 일부라는 것이다. 실제로 ASCI는 DoE 산하 로렌스 리바모아 국립 연구소, 로스앨러모스 국립 연구소, 샌디아 국립 연구소란 3개 연구소가 일체가 되어 개발한다는 방침을 취하고 이에 캘리포니아 공과/시카고/일리노이/스탠퍼드/유타라는 5개 대학이 협력하는 형식이다.

 

1996년 9월에 발표된 ASCI 프로그램 계획에 따르면 1997년도의 ASCI에 대한 지출은 1억 2160만 달러가 책정되었다.


 

1997년도의 ASCI에 대한 지출
어플리케이션 개발 5490만달러
문제 해결 환경 구축 2350만 달러
플랫폼 개발 3370만 달러
전략 얼라이언스 관계 610만 달러
관련 지출 340만 달러

 

내역은 표대로 적잖은 금액이 이에 들어가고 있었던 것이 분명하다.

 

그 ASCI의 주요 목적은 "2010년까지 핵무기 성능 평가나 리뉴얼 프로세스 분석, 사고 분석과 검증을 가능한 완전하고 고성능인 물리 시뮬레이션 코드 생성"이다.

 

미국의 컴퓨터 업계에 이러한 코드를 실행하기 위해 필요한 보다 고성능/ 고용량인 하이엔드 슈퍼 컴퓨터 개발을 촉진하고 이들을 실현하기 위한 여건도 중요한 과제로 꼽혔다.

 

당연하지만 핵 실험 시뮬레이션은 그만큼 고성능/고 정밀의 것이라서 우선 이것을 어떻게 할 필요가 있으며 다음에 그것을 움직이기 위한 플랫폼 개발, 환경 정비, 1997년 예산의 절반 가까이가 애플리케이션 개발에 맞춰진 것도 당연하다.

 

그 어플리케이션 개발의 본질을 떠나 하드웨어적인 부분이다. 아래의 사진은 ASCI Program Plan에서 제시된 2002년 부근까지의 로드맵이다.


 

 


1996년 9월의 어플리케이션 시스템 인프라의 로드맵. Computers칸의 세로축은 대수.
 

가장 윗면이 애플리케이션으로 각각의 시기에 어떤 애플리케이션을 준비할 수 있거나 혹은 개발에 착수하고 있어야 할지를 나타낸 것, 가장 하단이 인프라로 각각 어떤 인프라가 이용되야 할지를 나타낸 것이다.

 

사이에 위치한 것이 슈퍼 컴퓨터의 성능으로 대략적으로 말하면 1996년에 비해 2000년이 10배, 2003년경에는 100배를 하겠다는 것이다. 오른쪽 아래에 있는 기존의 컴퓨터 성능 향상을 연장해 가면 2002년경 1012Ops(1T Ops), 1014Ops(100T Ops)에 도달하는 것은 2025년경이다.


 

주요 컴퍼넌트의 성능은 1996년~2003년 사이에 1000배로 높이면서 이 결과로 애플리케이션 성능을 10만배로 만들겠다는 목표인데 왠지 이 시점에서 석연찮은 점이 있다. 1000배 밖에 안 되는 기분이 드는 건 필자뿐일까?


 

복수의 시스템을 병행하여 개발, 순차적으로 그것을 이용하는 ASCI

 

ASCI는 목표에 대해 일약에 완성판의 시스템을 만드는게 아니라 복수의 시스템을 병행하여 개발하고 순차적으로 그것을 이용하는 형태로 목표를 달성한다는 접근이 취해진다. 그것이 아래의 사진이다.

 


ASCI는 복수의 시스템을 병행하여 개발하고 순차적으로 그것을 이용하는 형태로 목표를 달성하는 구조. 이 시점에서 Option Red와 Option Blue만 있고 그 다음은 미정이었다


구체적으로는 이하의 표 형식으로 진행했다. Purple만 ASC로 이름이 바뀌는 것은 2004년에 프로젝트 이름이 ASCI에서 ASC에 바뀐점 때문이다.


ASCI시스템
Option이름 연산 성능 메모리 양 실용화 시기
ASCI Red 1T FLOPS 이상 0.5TB FY1996
ASCI Blue 3T FLOPS 이상 1.5TB FY1998
ASCI White 10T FLOPS 이상 5TB FY2001
ASCI Q 30T FLOPS 이상 10TB FY2003
ASC Purple 100T FLOPS 이상 30TB FY2007


참고로 이건 어디까지나 당초 계획에 따른 표인데 실제로는 ASCI Blue는 ASCI Blue Pacific와 ASCI Blue Mountain의 2개가 존재한다. 또 ASCI Red의 후계로서 Red Storm이 추가됐다.


2000년에는 ASCI의 각 머신를 메우는 위치 설정이 되는 Blue Gene/L도 발주돼 2005년 실용화되었다. 이 Blue Gene/L은 IBM이 독자 개발을 계속해 Blue Gene/P 및 Blue Gene/Q가 개발 되었다. 이 Blue Gene/Q를 바탕으로 한 것이 Sequoia로 2012년부터 가동됐다.

 


ASCI의 각 머신. 사진 출처:로렌스 리바모아 국립 연구소


이들 각각의 머신의 자세한 내용은 다음부터 자세히 설명해 나갈 것이며 그 전에 ASCI와 ASC 프로젝트에 다시 이야기를 되돌린다.


ASCI의 원래 목적은 앞서 말한 대로 핵 실험 시뮬레이션이다. 이에 대해 열거하면 다음과 같다. FY2000은 미국 회계 연도 2000년(2000년 10월 1일~2001년 9월 30일)을 의미한다.


 

ASCI와 ASC프로젝트의 진척
FY2000 핵무기를 사용한 폭발(Primary Explosion)을 3D 시뮬레이션 함과 동시에 그 내용을 분석하는 시연에 성공.
FY2001 2차 폭발(Secondary Explosion)의 시연에도 성공하는 동시에 ASCI White를 이용하여 완벽히 동작하는 문제 해결 환경을 제공하는데 성공한다. 또 시뮬레이션 조건에 관한 제반 검증에 처음 통과한다.
FY2002 완전한 열 핵무기 폭발 시뮬레이션과 사고 상태에서 핵무기 상황 3D 분석도 가능해졌다.
FY2003 핵무기 시스템의 다양한 상태에서의 안전 시뮬레이션을 제공 개시.
FY2004 실제 핵무기 모델의 검증을 완료하고 W76/W80 핵폭탄의 수명 연장을 위한 정비를 지원하는 동시에 W88 핵폭탄의 지원을 추가.또 비 핵무기 실험과 판정의 시뮬레이션도 지원.


대체로 2005년경에는 초기의 목적을 어느 정도 달성할 수 있게 됐다. 이어 다른 핵무기의 지원이나 새로운 시뮬레이션 등도 수시로 추가되고 있는데 처음 ASCI의 목적은 어느 정도 달성했다고 생각할 수 있는 좋은 상태가 됐다.

 

이에 따라 ASCI가 ASC로 바뀐 것은 2004년의 일이다. ASC의 주 목적은 계속 SSMP/SSP의 유지인데 동시에 당초의 목적에는 없었던 복잡하고 불 확실한 시나리오의 지원이나 ICF(Inertial Confinement Fusion:관성 핵융합)의 서포트 등 보다 높은 수준으로 타겟을 옮기면서 현재도 진행중이다.

 

결과적으로 2009년에는 Peta FLOPS 머신, 2016년에는 100P FLOPS의 머신, 2018년에는 Exascale(1E FLOPS)의 머신을 각각 필요로 한다는 로드맵을 그렸다. 그리고 Peta FLOPS 머신이 Cielo, 100P FLOPS의 머신이 아까 나온 Sequoia로 현재 가동 중이다.

 

이어 ASC의 최신 로드맵(PDF)에는 AST 1(Trinity)/ATS 2/ATS 3 라는 3세대 ATS(Advanced Technology Systems)와 병행하여 TLCCII/CTS-1/CTS-2라는 3세대 CTS(Commodity Technology Systems)가 개발됨이 드러나고 있다.

 


아직 ATS 2 이후의 이름은 정해지지 않은 것 같다


ATS란 SSP를 위한 피크 성능을 요구하는 스페셜 시스템 대해 CTS는 표준적인 시스템 구성을 사용하고 저렴한 가격으로 계산 능력을 실현한다는 것이다.


현재 이용되고 있는 TLCC II(Tri-Lab Linux Capacity Cluster 2)는 로렌스 리바모아, 로스앨러모스 샌디아 3개의 국립 연구소에서 공동으로 운용하고 있는 Linux Cluster의 제 2세대라는 것이다. 이 이야기도 계속 되겠지만 ASC는 미국의 슈퍼 컴퓨터 시장을 견인하고 있다고 해도 좋을 것이다.

 

다음은 ASCI Red부터 순차적으로 설명해 나간다.

 


출처 - http://ascii.jp

반응형
Posted by 랩터 인터내셔널