ASC Red Storm과 거의 같은 타이밍에 ASC(Advanced Simulation and Computing Program:선진 시뮬레이션 및 컴퓨팅 계획)의 100TFLOPS를 위한 계획도 시작된다. 이는 ASCI White의 후계 시스템에 해당한다. ASCI White가 10TFLOPS이므로 단순히 봐도 10배 성능의 시스템이다.

 

ASC Purple 시스템. 사진은 로렌스 리바모아 국립 연구소의 Tom Spelce의 논문에서 발췌


2002년 11월 19일 미국 에너지성과 IBM은 총 2억 9000만달러의 계약을 맺는다. 다만 이는 ASC Purple 뿐만 아니라 Blue Gene/L도 포함한 것이었다. ASC Purple이 100TFLOPS, Blue Gene/L이 300TFLOPS 이상이라는 이론 연산 성능으로 금액이 커져 단가당 연산 성능으로 말하면 기존의 ASCI/ASC 시스템을 훨씬 넘어선다.

 

ASC Purple의 부대 설비만 2억 3000만달러나 되는데(부대 설비 가격은 총액 2억 9000만달러로 계약금에 포함되지 않는다) ASC Purple만으로는 가격 대비 가치감은 떨어지고, 반대로 Blue Gene/L의 알뜰 구매 심리가 높은 것인데 이 중 Blue Gene/L은 다시 한번 설명하며 이번에는 ASC Purple에 대해서 설명한다.


ASC Purple은 초기 ASCI 계획의 총 정리, SMP(Symmetric Multiprocessing:대칭형 다중 프로세싱)+클러스터 구성을 취한 최후의 시스템이다. 그냥 이렇게 쓰면 약간 어폐가 있으므로 좀 더 자세하게 설명한다.

 

초기 ASCI 계획이라는 것은 1996년경에 책정된 이 로드맵에서 2002년경에 투입될 예정이었던 100TFLOPS를 실현한다는 의미다.



 

1996년경에 책정된 ASCI 로드맵. 2002년경 100TFLOPS를 실현할 계획이다


물론 계획 자체는 이전 연재 286회에서 설명한 대로 ASCI에서 ASC로 바뀌고, 지금은 1PFLOPS를 목표로 하고 계속 계산 능력의 증강을 위한 개발이 진행되고 있지만 100TFLOPS가 하나의 이정표인 것은 틀림없고 그 의미에서는 기념해야 할 위치에 있다.

 

마지막 SMP+클러스터지만 이 뒤에도 ASC는 계속 SMP+클러스터를 쓰고 있다. 다만 그 위상은 좀 다르다. 2021년경까지 ASC 로드맵에 따르면 ATS(Advanced Technology System)는 이 ASC Purple이 사실상 최후 SMP+클러스터 구성이며 이어지는 시스템은 기본 MPP(Massively Parallel Processing:초병렬) 베이스다.



 

2021년경까지 로드맵. ATS용 ASC Purple이 마지막 SMP+클러스터 구성이다


그런데 CTS(Commodity Technology Systems)는 Linux 기반의 머신을 클러스터 구성으로 잡은 것이 이후로도 계속 사용되고 있다. 다만 이쪽은 "Commodity"라는 이름과 같이 기존의 저렴한 시스템을 대량으로 나란히 한다는 것으로 피크 성능을 겨냥한 구성이 아니다.

 

지난번 Capability Computing의 얘기를 했지만 ASC로 말하면 ATS 시스템이 이 Capability Computing을 추구하는 라인업이며 한편으로는 CTS는 이와 짝을 이루는 Capacity Computing(계산 용량에 의한 컴퓨팅)을 목표로 한 시스템이다. 그러므로 ASC Purple는 정확히 말하면 Capability Computing을 겨냥한 마지막 SMP+클러스터 구성 머신이 된다.

 

그 ASC Purple은 2002년에는 POWER5 프로세서가 12554개 집적된 SMP+클러스터 구성으로 그 의미에서는 ASC White의 스케일 확장판이라고 생각하도 문제가 없을 것이다. 우선 그 POWER5 프로세서에 대해서 설명한다.


POWER3 까지 개발 경위는 연재 290회까지 거론했기에 POWER4부터 이야기를 시작하고 싶다.


POWER4 프로세서는 1999년 10월 MicroProcessor Forum에서 처음 발표된다. 다만 이때는 내부 구조 자체는 발표되지 않고 1GHz 이상이 가능하다고만 소개됐을 뿐이다.

 

오히려 특징은 2개의 CPU코어와 공유 2차 캐시 및 3차 캐시, 그리고 프로세서 간 커넥트를 1칩화한 것이다.

 


1999년 10월에 개최된 MicroProcessor Forum에서 IBM의 설계 주임 Jim Kahle에 의한 POWER4 발표 슬라이드. 이 발표의 취지는 프로세서 성능은 명령어 집합식이 아니라 얼마나 메모리 대역을 확보하느냐에 달렸다는 것이었다


이 칩을 4개 내놓고 MCM(Multi-Chip Module)화된 8P프로세서도 구성할 수 있다는 것이 밝혀졌다. 그리고 다이 구역은 오른쪽 아래 사진처럼, 코어의 절반을 2차 캐시가 선점한다.


8P프로세서 구성. 프로세서 간의 링크 속도는 CPU 동작 주파수의 절반으로 예를 들면 1GHz구동이라면 500MHz다. 버스 폭은 쌍방향 32bit POWER4의 2차 캐시는 최대 1.5MB, 3차 캐시는 최대 32MB까지 지원


내부 구조는 2001년에 발표된 것이지만 정수 연산과 부동 소수점 연산을 각각 동시에 2명령으로 실행 가능한 슈퍼 스칼라 라는 구조, 그리고 Out of Order의 구현 그 자체는 POWER3을 따르고 있다.


다만 파이프 라인은 정수 연산에서 12~14단, FPU는 17단으로써 0.22μm 프로세스에서도 450MHz가 종점이었다. POWER3-II에 POWER4는 0.18μm 프로세스에서 1.1GHz 구동, 0.13μm으로 미세화한 POWER4+에서는 1.9GHz 구동이 가능하게 되어 있다.

 


POWER4의 파이프 라인. 이 슬라이드는 2003년 POWER5 발표때의 것이지만 2001년 MicroProcessor Forum에서 발표된 슬라이드를 재게한 것


이 POWER4를 다중 스레드로 확장한 것이 POWER5로 메모리 컨트롤러도 내장됐다. 2차 캐시 용량도 1.875MB까지 증량되어 3차 캐시는 36MB로 확장됐다.


POWER4의 파이프라인과 비교했을때 색깔이 있는 부분이 멀티 쓰레드로 확장된 부분. 파이프 라인 그 자체에는 큰 변경은 없다 POWER4의 다이어그램과 비교하면 기본적인 골격은 변하지 않았지만 L3 Directory/Control의 크기가 늘어남과 동시에 메모리 컨트롤러(MC)가 추가된 관계로 약간 크다


CPU 다이 4개와 3차 캐시×4를 하나로 모듈화 한 MCM(Multi-Chip Module)은 한변이 95mm라는 거대한 것이었다. 동작 주파수는 당초 발표된 0.13μm SOI 프로세스를 사용한 것이 최대 1.9GHz, 프로세스를 90nm SOI로 미세화한 POWER5+는 당초 발표된 것은 1.9GHz가 종점이었으나 뒤이어 2006년에는 2.3GHz 까지 상승됐다.


POWER5의 개요. 이 사진은 CG 또는 프로토 타입 같고, 양산품에서는 다이 주변 콘덴서의 배치수가 증가하면서 배치도 다르다



자 이야기를 ASC Purple로 돌린다. ASC Purple은 POWER5 프로세서(POWER5+는 아님)을 탑재한 IBM System P5 575라는 머신이 이용됐다.

 

원래 POWER5는 최대 8프로세서(16코어)까지 쉽게 구성할 수 있도록 배려하고 있지만 ASC Purple에서는 이 8프로세서 구성을 하나의 노드로 8코어가 이용됐다.

 


ASC Purple은 8프로세서 구성이 1개의 노드로 된 구성이다. 


System P5 575라는 머신은 클러스터 구성 전용 특수 시스템으로 취급되어 1.9GHz 구동 POWER5 칩을 쓰면서 CPU 코어의 한쪽을 무효화하는 독특한 사용 방법이 적용됐다.


이에 따라 공유 2차/3차 캐시 및 메모리를 한쪽 CPU 코어에서 점유할 수 있기 때문에 성능이 올라간다는 사치스러운 구성이다. 하드웨어적으로 IBM System P5 570과 달리 독특한 구성이 이용됐다.


일반적인 System P5 570의 경우는 1개의 POWER5 칩과 DIMM 슬롯×8, 그리고 SMI-II라는 DIMM 버퍼를 탑재한 DCM(Dual-chip Modules:CPU 카드 명칭)를 2장을 하나의 케이스에 담은 형태다.

 


System P5 570의 DCM.SMI-II는 DDR2 DIMM을 채널당 4장 장착하기 위한 버퍼 칩. 메모리 자체는 DDR2-533의 512MB DIMM이 이용됐다는 설명이 있다


1대의 케이스 내부 구조. 왼쪽 아래 2장이 POWER5 프로세서 카드


이 2장의 카드는 8프로세서 구성으로 말하는 종방향 결선이 된다. 가로 방향은 케이스 간을 전용 케이블로 잇는 것으로 구현되어 있다.



프로세서간 접속 전용 케이블이 복수 준비


이에 비해 System P5 575는 8개의 DCM과 DCM마다 8슬롯의 DIMM, 전원 유닛과 냉각팬이 2U의 섀시에 붙어 있다.



로렌스 리바모아 국립 연구소의 ASC Purple 설명 페이지에서 발췌. 이 페이지의 설명에서 DDR 메모리가 장착될 수 있게 설명되고 있다 이것도 설명 페이지. 중앙의 검은 부분이 POWER5 프로세서로 그 앞뒤를 DIMM과 SMI(SMI2)가 감싸는 형태로 되어 있다


2U로 16way SMP(ASC Purple의 경우는 실제로는 8way) 접속이 되는 형태다. 참고로 메모리가 DDR인지 DDR2인지는 확실하지 않다.

 

원래 POWER5 자체는 어느 쪽도 가능하며 SMI을 사용하면 DDR 지원, SMI2을 사용하면 DDR2 대응인데 로렌스 리바모아 국립 연구소의 설명 페이지에는 DDR×8 구성으로 설명되고 있다.

 

한편 로렌스 리바모아 국립 연구소의 Tom Spelce가 2006년 SCI COMP 12에서 발표한 "Early Performance Results from the LLNL/NNSA Purple Computer"라는 논문에서는 분명히 DDR2 512MB라고 설명되어 있다.


그래서 초기 시스템은 DDR 기준, 나중에 추가한 부분은 DDR2 기반으로 혼재 하고 있었는지도 모른다.


앞 페이지에서 설명한대로 System P5 575는 8P 구성 SMP 머신이 1노드인데 이를 1536노드 연결한 것이 ASC Purple이다.


IBM System P5 575를 1536노드 연결한 것이 ASC Purple이다. 노드 자체는 1548+2로 1550개 존재한다. 로렌스 리바모아 국립 연구소의 Tom Spelce의 논문에서 발췌


역시 단일 스위치로 1536노드의 커버는 완전하지 않는 것이었고 실제로는 3개 수준의 트리 구조로 어디선가 들은 듯한 구성이다.


3개 수준의 트리 구조가 된 네트워크 개념도


ASCI Q는 단순한 FAT 트리지만 ASC Purple은 omega 네트워크 구성으로 단순히 수준 수가 같아도 동일하게는 비교할 수 없다. 또 ASC Purple의 경우 2U 유닛 하나에 1노드 및 하나의 섀시에 12노드 분을 구성할 수 있었다.



1개 섀시에 12노드 분을 거두며 전원부가 최상단인게 흥미롭다. 이것도 ASC Purple 설명 페이지에서 발췌


때문에 전술한 네트워크 개념도에서의 Level 1 Switch는 섀시의 하단에 넣어 배선이 짧고 고속으로 접속된다. 아래의 사진이 Level 1 Switch의 내부 구조로 4×4 Swicth를 사용하고 32포트의 스위치가 구성되어 있다.


스위치 유닛 구조. 하나의 스위치 레이턴시는 59나노초이므로 같은 섀시 내부의 다른 노드와의 통신은 118나노초+α(배선 지연 분)로 통신할 수 있게 된다. 설명 페이지에서 발췌


이 중 16포트가 노드에 할당되고 남은 16포트가 다른 프레임 접속에 이용된다. Level 2이상은 본래 네트워크가 이중화되어 Level 2가 192, Level 3가 96 노드수가 된다.



스위치의 구조. ASC Purple 본체 이외의 시스템도 있고 스위치는 섀시 192개 분이 준비되어 있다



Tom Spelce의 논문에서는 최대 8192노드까지 범위로 대역과 레이턴시 측정을 하고 있으나 대역은(통신 메시지나 송신 방법에 의하지만)대체로 목표인 "이론 대역의 45%"라고 하는 효율에 가까운 숫자를 달성했다.


또 레이턴시는 멀티 프로세서 시스템에서 이용되는 MIP_Allreduce라는 함수를 실행하기 위한 소요 시간이 8192노드의 경우 150마이크로초 전후로 억제되고 있음이 알려졌다.


다음에는 납품하는 시스템이다. 지금까지 설명했던 대로 ASC Purple는 POWER5를 기반으로한 시스템이지만 이것이 공식 발표된 것은 2005년으로 납품을 시작해도 애플리케이션 대응 등이 늦어지게 된다.


거기서 우선 2003년부터 2004년까지 EDTV(Early Delivery Technology Vehicles)로서 POWER4 베이스의 IBM pSeries p655를 기반으로 한 UM 및 UV라는 시스템이 도입된다. 이는 모두 8P 구성 1.5GHz POWER4 머신을 128노드 연결된 소규모 시스템이다.


이어 2004년 말부터 2005년까지 UP(Unclassified Purple)라는 System P5 575의 108노드 구성의 머신과 1536노드의 Purple이 병행하여 설치되어 2005년 7월 22일에 이용이 가능했다.


로렌스 리바모아 국립 연구소에 납품된 ASC Purple


이 중 1280노드(10240코어)를 이용해 LINPACK을 실행한 결과는 63.4TFLOPS로 이론 성능인 77.8TFLOPS의 81.5%에 이르고, 2005년 11월 TOP500에서 3위에 올라선다. 다음 2006년 6월에는 1526노드(12208코어)로 75.8TFLOPS에 도달해 계속 3위를 확보하는데 성공한다.

 

효율도 81.7%로 다소 개선되고 있으며 2010년 11월 19일 서비스 종료까지 거의 100TFLOPS에 가까운 플랫폼으로서 활용되어 왔다. 가장 절대 성능은 어쨌든 시스템 가격과 운용 비용이 역시 문제시 된다.

 

운용 비용으로 문제가 된 것은 주로 전기세 때문으로 시스템은 7.5MW의 전력을 소비하며 또 발열은 매시간 160만 BTU(British thermal unit:영국 열량)에 이르렀기 때문에 냉각 비용도 만만치 않았다.

 

이후 IBM은 PowerPC 기반의 MPP 방향으로 진입하게 된다.


출처 - http://ascii.jp

 

반응형
Posted by 랩터 인터내셔널