'슈퍼컴퓨터'에 해당되는 글 4건

  1. 2019.03.24 미 에너지부, 최초의 엑사스케일 슈퍼컴퓨터 오로라(Aurora) 계약 by 랩터 인터내셔널
  2. 2017.05.13 Cray, 딥 러닝 클러스터형 슈퍼 컴퓨터 CS-Storm 발표 by 랩터 인터내셔널
  3. 2016.05.02 슈퍼컴퓨터 계보> Red Storm의 후계기 Cielo (CRAY XT5,6) by 랩터 인터내셔널
  4. 2015.09.15 슈퍼컴퓨터 역사> 최초의 1PFLOPS를 달성한 IBM 로드러너 by 랩터 인터내셔널


미국 인텔(Intel)은 미국 크레이(Cray)와 공동으로 미 에너지부에 슈퍼 컴퓨터 오로라(Aurora)를 2021년에 납품하는 계약을 체결했다고 발표했다.

 

신규 오로라는 세계 최초의 초당 100경 회의 부동 소수점 연산이 가능한 엑사 스케일 슈퍼 컴퓨터 시스템이 될 전망으로 아르곤 국립 연구소에 설치되며 계약 금액은 5억달러 이상으로 보이고 있다.

 

오로라는 Cray의 차세대 슈퍼 컴퓨터 시스템 Shasta 베이스로 차세대 인텔 제온 스케일러블 프로세서와 인텔의 신규 Xe GPU, 차세대 인텔 Optane DC 퍼시스턴트 메모리 및 One API 소프트웨어로 구성되며 특별히 설계된 새로운 인텔 테크놀로지가 도입된다.


에너지부의 Rick Perry 장관은 "과학 커뮤니티의 향상 뿐 아니라 미국인의 일상적인 생활을 향상시키기 위해서도 엑사스케일의 달성은 불가결하다"고 밝혔다.

반응형
Posted by 랩터 인터내셔널



미국 Cray는 AI 개발용 클러스터형 슈퍼 컴퓨터 "CS-Storm" 시리즈를 발표했다.


NVIDIA와 Nallatech의 액셀러레이터, 인텔의 프로세서를 탑재하여 머신 러닝이나 딥 러닝을 위한 비즈니스 및 연구에 최적의 환경을 제공한다. Cray의 전문 스탭이 고객의 환경에 맞춘 시스템을 구축하기 때문에 AI 시스템의 도입을 간단하게 진행할 수 있다.


CS-Storm에서는 노드 당 187TOPS(Tera Operations Per Second)의 연산 성능을 갖추고 랙당 머신 러닝 성능으로 2,618TOPS, 랙당 HPC 애플리케이션 성능은 배정밀도에서 658TFLOPS를 발휘하고 있다.


"CS-Storm 500GT"와 "CS-Storm 500NX"의 2기종이 준비되며 전자는 NVIDIA Tesla P40/P100또는 Nallatech FPGA 탑재, 후자는 NVLink로 연결된 Tesla P100(SXM2)를 탑재하고 있어 대규모 계산이 필요한 딥 뉴럴 네트워크의 훈련에 적합하다고 한다.


CS-Storm 500GTCS-Storm 500NX
프로세서 및 액셀러레이터8기 450W 또는 10기 400W의 액셀러레이터
Tesla P40 또는 P100
Nallatech FPGA
Xeon(Skylake)×2
Tesla P100(SXM2)
Xeon E5-2600 v4(Broadwell)×2
인터커텍트PCI Express
InfiniBand 또는 OmniPath
InfiniBand 또는 OmniPath
아키텍처19인치 3U 또는 4U
2.5인치 핫 스왑 베이×16(NVMe은 최대 8)
19인치 4U
2.5인치 베이×12(NVMe은 최대 4)


반응형
Posted by 랩터 인터내셔널

슈퍼 컴퓨터 역사 연재 기사 : http://raptor-hw.net/xe/index.php?&mid=page_xEcK28&act=IS&is_keyword=%EA%B3%84%EB%B3%B4&where=document&page=1

 

연재 292회에서 ASC Red Storm을 소개했는데 이 ASC Red Storm의 후계기로 볼 수 있는 시스템이 로스앨러모스 국립 연구소에 설치된 Cielo다.



 

Cielo



운용 시작은 2011년이었고 지금도 아직 로스앨러모스 국립 연구소에서 운용되고 있는 시스템이다. 위상적으로는 RoadRunner의 후계이며 RoadRunner가 2013년 은퇴한뒤 현재는 로스앨러모스 국립 연구소의 Capability Computing System의 포지션에 있다.


Capability Computing은 "계산량이 매우 많은 대규모 시뮬레이션 등을 최대한의 계산 능력을 이용해 최소 시간으로 해결" 하기 위한 것이다.


그런데 Cielo가 Red Storm의 후계에 해당한다는 것은 단순히 Capability Computing용이라고 하는 것은 아니고, Red Storm의 구조를 발전시켰기 때문이다. 거기서 Red Storm 이후의 CRAY 제품 라인을 소개한다.


 

Red Storm를 제품화한 CRAY XT3

 

연재 292편의 마지막에 썼던 대로 Red Storm구성을 CRAY는 CRAY XT3로 2004년에 제품 라인업에 추가했다.


 

"XT3". 이는 24랙 모델 구성을 CG로 만든 것이다. CRAY XT3 카탈로그에서 발췌



Red Storm자체는 최종 140랙으로 구성되어 납품됐으나 CRAY는 XT3에 대해 이하 샘플 구성을 제시하고 있다.


 

CRAY XT3의 성능
랙수 Compute PE Service PE 피크 성능 설치 면적
6개 548개 14개 5.6TFLOPS 12TILES
24개 2260개 22개 23.4TFLOPS 72TILES
96개 9108개 54개 94.6TFLOPS 336TILES
320개 30508개 106개 318TFLOPS 1200TILES



과연 랙 320개의 구성은 터무니 없을 만큼 거대한 것인데 납품 사례가 없을것 같지만 2005년 11월 TOP500의 상위 100위를 보면 아래와 같이 나름대로 팔리고 있는 것을 알 수 있다.



2005년 11월 TOP500 상위 100위 안에 있는 XT3
순위 조직 시스템명 실효 성능
10위 오크리지 국립 연구소 Jagure 15.2TFLOPS
14위 Engineer Research and Development Center DSRC Sapphire 12.2TFLOPS
33위 PSC BigBen 7.9TFLOPS
70위 Swiss National Supercomputing Centre 4.4TFLOPS



그리고 이듬해 시스템 수가 더 늘고 있는 것은 PC등과 달리 수주로부터 납품 → 시스템 구성을 거쳐 운용 개시까지 나름대로 기간이 걸리기 때문이다. 일본에서도 예를 들면 호쿠리쿠 첨단 과학 기술 대학원이 4랙 구성의 XT3를 도입해 운용하고 있다.

 

이 XT3의 바로 뒤에 CRAY는 XD1이란 랙 마운트 형태의 HPC서버 솔루션을 발표한다.



 

 

랙 마운트 형의 HPC서버 "XD1". 이 유닛 1개에 12프로세서 + 액셀러레이터가 격납되어 1개의 랙에는 총 12유닛이 설치됐다. CRAY XD1 카탈로그에서 발췌


이는 원래 캐나다의 OctigaBay Systems Corp이라는 회사가 개발한 것을 CRAY가 인수해 제품화한 것이다.

 

XD1은 XT3와 비슷한 구성이 되고 있지만 인터커넥트는 XT3의 SeaStar Link와는 전혀 다른 래피드 어레이 인터 커넥트를 이용하거나 또는 2개의 CPU에 1개씩 애플리케이션·액셀러레이터 시스템이 장착된 것이 특징이다.



 

 

XD1의 구성. 2개의 CPU와 DIMM, 그리고 액셀러레이터 등이 1장의 보조 기판에 모아지고 있다. 유닛에는 이 보드가 6장 내장


이 애플리케이션 액셀러레이터 시스템이란 FPGA로 XD1에서는 Xilinx의 "Virtex-II Pro"가 탑재되어 있었다.

 

최근에는 FPGA를 HPC에 쓰겠다는 아이디어가 한창 논의되고 있는데 2004년 당시는 다소 시기 상조였던 것이며 XD1도 만들어 보기는 했으나 FPGA에서 생각한 프로그래밍이 어렵다는 말이 있어 결국 XD1은 그만큼 널리 사용되지 못하고 끝났다.



상업적으로 성공한 XT3의 후계 TX4


XT3의 후계가 되는 것이 XT4다. XT3와 XT4의 차이는 프로세서가 90nm세대의 Italy코어(Socket 940/DDR SDRAM 대응)에서 90/65nm세대의 Santa Rosa/Butapest코어(Socket F/DDR2 SDRAM 대응)으로 변경된 것과 노드간 접속이 기존 SeaStar에서 SeaStar2로 변경된 점 2가지다.




CRAY XT4의 구성

HyperTransport Link가 6.4GB/sec

SeaStar2의 구조는 이것만 보면 SeaStar1과 구별할 수 없다.



우선 프로세서에 대해서 말하면 Italy가 95W의 TDP에 최대 2.6GHz 구동의 듀얼 코어였던 반면 Santa Rosa는 같은 95W TDP 범위에서 3GHz까지 동작 주파수를 올렸다. Barcelona는 2.3GHz까지 작동 주파수는 떨어졌지만 코어 개수는 배가 되어 노드당 계산 능력은 1.8배가 된다.

 

또 대응 메모리가 DDR2-SDRAM으로 변경되어 메모리 대역이 배증했으며 메모리 액세스를 사용하는 계산에 있어 성능 향상이 도모됐다.

 

한편 SeaStar2의 기본적인 구성은 SeaStar1과 다르지 않다. 사양의 차이는 주로 SeaStar의 ASIC과 Opteron을 잇는 하이퍼 트랜스포트 링크의 I/F이며 초기 SeaStar는 6.4GB/초의 쌍방향 실효 대역이 2.17GB/초였던 반면 SeaStar2는 여기가 8GB/초로 향상되고 있다.


이 XT4는 XT3의 업그레이드 형태로 이용된 경우도 많았다. 예를 들면 오크리지 국립 연구소의 Jagure는 2005년에 XT3 기준으로 구축됐지만 2006년 말에 XT4 베이스로 업그레이드됐으며 2007년 6월 TOP500에서는 101.7TFLOPS로 2위를 확보하고 있다. 2007년 11월 TOP500의 상위 100위를 보면 이하의 기관이 XT4를 도입하고 있다.



 

2007년 11월 TOP500 상위 100위 안에 있는 XT4
순위 조직 시스템명 실효 성능
7위 오크리지 국립 연구소 Jagure 101.7TFLOPS
9위 미 에너지부
로렌스 버클리 국립 연구소
국립 에너지 연구 과학 센터
Franklin 85.4TFLOPS
17위 에든버러 대학 HECToR 54.6TFLOPS



또, RedStorm도 2008년에는 일부를 XT4에 걸맞게 바꾸고 있으며 XT4도 나름대로 상업적으로 성공한 모델이다.


TX4의 성능을 향상시킨 TX5 수랭 옵션도 추가

 

이 XT4를 더욱 강화한 것이 2007년에 발표된 XT5 시리즈다. XT4에서 변경점은 이하의 4가지


CRAY XT5 랙 위에 있는 것은 수랭식 유닛으로 랙 우단의 서비스 유닛에 접속되고 있다.

  • ·프로세서 코어는 XT4와 마찬가지로 Opteron 2000시리즈의 쿼드 코어를 이용하지만 1개의 컴퓨트 노드에 2개의 Opteron코어가 장착된다.
    ·4개의 컴퓨트 노드도 준비하고 1장의 블레이드를 구성했다
    ·인터 커넥트는 SeaStar2+로 업그레이드
    ·공랭 이외에 수랭식 옵션이 분비


우선 프로세서는 당초 Barcelona코어에서 동작 주파수가 오르지 못해 고투했지만 이어 투입된 45nm프로세스인 Shanghai베이스의 4코어, 혹은 Istanbur기반의 6코어 Opteron을 이용함으로써 동작 주파수 상승이 가능하게 됐다.

 

혹은 동작 주파수를 떨어뜨리지 않고 소비 전력이 감소되어 일단 성능 면에서 문제는 일단락되고 있다.

 

또 이 세대에는 2개의 Opteron을 하이퍼 트랜스포트 링크로 연결, 한쪽에만 SeaStar ASIC를 잇는 것으로 프로세서의 밀도를 높이고 있다.


 


  XT4 구성 그림과 비교하면 TX5의 차이를 알기 쉽다. 참고로 서비스 노드는 계속 Opteron은 1개지만 XT4는 PCI-X ×2 였던 I/O 링크가 PCI Express로 변경

아래의 사진이 XT5 블레이드인데 이런식으로 8개의 프로세서와 32개의 DIMM슬롯, 그리고 4개의 SeaStar2+ASIC을 만들어 1장의 블레이드를 구성함으로서 실장 밀도를 높이고 있다.

 


XT5 블레이드. 위에 4개 나란히 있는 히트 싱크가 SeaStar2+ASIC, 그 옆에 8개가 나란히 있는 것은 VRM 모듈 같다


실장 밀도를 그냥 끌어올리면 방열의 문제가 당연히 생기게 되는데 이에 대해 XT5는 종래의 공랭에 수랭식 옵션도 제공하고 있다.

 


XT 5블레이드의 히트싱크에 접하는 형태로 수랭식 헤드가 장착되어 그 배액이 곧장 랙 위에 나타나고 가로 방향으로 뻗어 있을 것이다. 참고로 냉각에 이용되는 것은 R134a


SeaStar2+ 자체는 종래의 구조와 크게 달라지진 않는다. 다만 SeaStar간의 링크가 7.6GB/초에서 9.6GB/초로 향상된 것이 SeaStar2의 차이점이다.




SeaStar2+구조. 기본 구조는 종래와 달라지지 않아도 프로세스 미세화 등은 당연히 이루어진다


XT5 역시 나름대로 널리 이용됐다. 2009년 6월 TOP500 상위 100위를 보면 다음과 같이 CRAY 자신의 것을 제외해도 좋은 대수가 운영되고 있다.



2009년 6월 TOP500 상위 100위 안에 있는 XT5
순위 기관 시스템명 피크성능
2위 오크리지 국립 연구소 Jagure 1059.0TFLOPS
6위 미 해군 범죄 수사국/테네시 대학 Kraken 463.3TFLOPS
23위 Swiss National Supercomputing Centre Monte Rosa 117.6TFLOPS
39위 NOO/NAVO   90.8TFLOPS
48위 미 육군 연구소   76.8TFLOPS
57위 CRAY Shark 67.8TFLOPS


특히 오크리지 국립 연구소는 계속적으로 Jagure를 업그레이드했으며 2005년부터 2009년 사이에 15.2TFLOPS→ 1059TFLOPS까지 성능을 높였다.


그리고 XT5에는 XD1과 비슷한 Opteron+FPGA 구성의 CRAY XR1 블레이드, 그리고 CRAY가 종래부터 지원해 온 벡터 방식을 계승한 "CRAY X2"라는 자체 프로세서를 탑재한 X2도 준비되어 이것들을 혼재시키는 것도 가능했다.

 

또 SeaStar2+ 링크를 4개로 제한하고 2차원 구조로 메시 연결한 저가 모델의 CRAY XT5m 이라는 모델도 추가되고 있다.

 



메모리가 DDR3로 바뀐 CRAY TX6

 

XT5의 후계가 되는 것이 2009년에 발표된 XT6다. XT5와의 차이점은 프로세서가 Socket F기반인 것부터 Socket C32/G34의 Opteron 6000 시리즈로 변경 된 것이다.


이에 따른 메모리도 DDR3로 바뀌고 있다. 다만 인터커넥트는 계속 SeaStar2+로 그 의미에서 블레이드 외의 구성 요소는 기본적으로 XT5와 같으므로 XT5에서 XT6로 업그레이드도 쉬웠다.


 


CRAY XT6는 여러가지 배치가 바뀐다


또 XT5m의 후계로서 XT6m도 함께 제공되고 있다. 다만 XT6는 CRAY가 기대한 정도로 팔리지 않은 모양이다. 2010년 6월 TOP500을 차지한 것은 이하 대로다.



2010년 6월 TOP500 상위 100위 안에 있는 XT6
순위 기관 시스템명 피크성능
16위 에든버러 대학 HECToR 274.7TFLOPS
76위 스웨덴 왕립 공과 대학   75.1TFLOPS
97위 CRAY Tuna 53.2TFLOPS



스웨덴의 시스템은 XT6m이다. 기타 기존의 XT5 사용자는 예를 들어 오크리지 국립 연구소는 6코어 2.6GHz의 Opteron을 탑재한 CRAY XT5-HE로 전환하고 있어 실제 2010년 6월에는 1759.0TFLOPS로 TOP500의 1위를 획득했다.

 

이 CRAY XT5-HE를 선택한 곳은 또 몇군데 있다. 다음 2010년 11월 목록을 보면 이 XT6를 빼고 후계 XE6를 택한 곳이 적지 않다.


최고 성능의 머신 Cielo

 

드디어 본론의 XE6다. 기본적인 구조는 XT6와 같지만 큰 차이는 인터커넥트에 SeaStar를 대신해 Gemini를 채용한 것이다.

 

아래 사진이 Gemini의 구성이며 4개의 Opteron프로세서가 연결되고 또 외부 링크를 10개(각각 9.3GB/초) 가진 구성이다. 하이퍼 트랜스포트 링크도 10.4GB/초로 향상됐다.


 


Gemini 구성


CRAY에 의하면 이 Gemini는 10만 노드가 넘는 시스템을 구축하는 것을 목적으로 하고 있으며 이를 위해 SeaStar을 대규모로 확장한 것이 Gemini인 셈이다.

 

 


XE6 프로세서 주변부에는 차이가 없다


XE6가 발표된 것은 2010년 5월이지만 이에 앞서2010년 4월 핵안전 보장국은 CRAY와 XE6기반으로 Cielo를 구축하는 계약을 맺는다. 계약 금액은 5400만달러 미만으로 2010년 3분기부터 설치를 시작하고 2011년에는 운용을 시작했다.

 

최종 구성은 8코어/2.4GHz구동 Opteron 6136을 기반으로 한 14만 2272코어(즉 프로세서 수는 1만 7784개)의 구성. 성능은 1110TFLOPS로 이론 성능의 1365.8TFLOPS와 비교해 81.3%의 효율을 자랑하며 이 정도의 대규모 시스템으로서는 상당히 높다고 해도 좋은 것이다.

 

로스앨러모스 국립 연구소는 현재 이 Cielo가 최고 성능의 머신이며 지금 당장은 운용이 계속 된다고 생각된다.

 

그리고 CRAY는 XE6 블레이드로 NVIDIA의 Tesla X2090을 조합한 CRAY XK6와 Tesla K20을 조합한 CRAY XK7등을 발표한다. 그리고 AMD Opteron시리즈 업데이트가 사라져 아키텍처를 인텔의 제온으로 전환하고 CRAY XC 또는 CRAY CS라는 라인업을 메인으로 잡아 AMD 기반의 XT/XE 시리즈는 "과거의 제품" 취급을 받게 된다.

 


출처 - http://ascii.jp

 

슈퍼 컴퓨터 역사 연재 기사 : http://raptor-hw.net/xe/index.php?&mid=page_xEcK28&act=IS&is_keyword=%EA%B3%84%EB%B3%B4&where=document&page=1

반응형
Posted by 랩터 인터내셔널
블루진(BlueGene)계열에 대한 언급 중 슈퍼 컴퓨터의 계보는 다시 ASC 계열로 돌아간다. 기념할 만한 연재 300회를 맞는 이번에는 ASCI Q의 치환 때문에 IBM이 개발한 로드러너(RoadRunner)다.

 

세계 최초로 1PFLOPS에 도달한 컴퓨터 "RoadRunner"

 

노드수도 동작 주파수도 한계, 후계기 마련에 다가선 한계 

어스 시뮬레이터와 BlueGene/L이라는 2제품의 성공은 ASC 계열을 생각하는데 큰 과제를 남겼다.

 

우선 첫번째는 노드 간 접속 레이턴시의 문제다. ASCI 계열만 보고 있으면 SMP(Symmetric Multiprocessing:대칭형 다중 프로세싱)+클러스터 방식이 안 된다고 생각하지만 어스 시뮬레이터도 초대 시스템은 640노드를 1단 크로스 바로 연결한 거대한 SMP+클러스터 구성이다.

 

그럼에도 불구하고 이 어스 시뮬레이터가 높은 성능을 발휘한 이유의 하나는 원래 프로세서가 벡터 방식으로 250MHz로 낮은 동작 주파수에서도 8GFLOPS의 성능을 얻고 있어 전체 성능을 벌어들였던 것이지만 다른 하나는 노드 간 접속이 아주 고속이었던 것이다.


이는 일단 크로스 바를 사용한 데 따른 것이지만 여기서 크로스 바를 쓴 것은 노드 수가 640개로 적은데 따른 것이다. 후기형 어스 시뮬레이터는 노드 수가 5120개로 늘어나면서 크로스 바를 포기하고 2단 구성의 크로스 바에서 Fat Tree를 구성한다는 ASCI Q를 방불케 하는 구성이다.

 

즉, 노드 수가 늘어나면 레이턴시가 늘어난다는 당연하다고 말할 수 있는 결과다.


또 다른 하나는 범용 프로세서의 한계다. BlueGene/L은 듀얼 FPU로 700MHz 구동으로 2.8GFLOPS를 실현했고 합계 360TFLOPS의 머신을 구축할 수 있었지만 이것으로 1PFLOPS가 가능한가 하면 3배의 노드수로는 노드 간 통신의 레이턴시가 어려운 일이다.

 

즉 midplane의 수가 128개에서 384개가 될 것인데 이를 프로그램에서 사용하기는 꽤 어려울 것이며 1개의 midplane의 노드 수를 늘리는가 하면 이번에는 midplane 내 레이턴시가 부쩍 늘어날 것이다.

 

여기서 동작 주파수를 3배로 높인다고 할 수 있지만 그 경우 소비 전력이 아마 10배를 넘어 Blue Gene/L의 높은 실장 밀도는 이룰 수 없다.


CRAY-2 수준으로 냉각액에 모두 담그는 정도의 방열 대책 마련이 필요하기 때문에 성능/소비 전력비가 엄청나게 떨어진다.

 

이러한 이야기는 2004년경부터 본격적으로 나오고 있는 것으로 1노드 당 성능을 올리는게 제일 편하다는 당연한 이야기가 됐다. 다만 동작 주파수는 이제 한계가 드러나고 있던 터라 이는 방법론으로서는 좋지 않다.


 

 

동작 주파수의 추이. 출처는 2007년 로스앨러모스 국립 연구소의 John A. Turner가 발표한 "Roadrunner:Heterogeneous Petascale Computing for Predictive Simulation" 이라는 논문. 원 데이터가 Tom's hardware guide. 이후로 작동 주파수는 계속 달리고 있지만 2015년 현재는 4GHz 근처에서 포화. 이를 넘어선 제품을 내는 것은 IBM 뿐이다


여기서 멀티 코어라고 말하면 이쪽은 반도체 제조 기술과의 약속이 되는 셈이지만 코어 수를 늘리면 코어 간의 동기가 문제가 되어 이쪽도 무진장으로 늘릴 수만 있는 것도 아니다. 거기서 Heterogeneous Architectures를 이용한다는 것이 ASC의 결론이었던 것 같다.

 

Heterogeneous(헤테로지니어스)로 활로를 찾는

당시는 또 Heterogeneous로 불릴 것은 3개밖에 없었다. 우선은 인텔이 연구 개발의 일환으로 발표한 80코어의 프로토 타입, 그리고 GPGPU로 이용할 수 있게 된 GPU, 다른 하나가 Cell이다.


 

인텔이 발표한 80코어의 개요. 이 80코어 CPU 1개에서 1.8TFLOPS이므로 555개를 나열하면 계산상은 1PFLOPS가 실현된다 GPU를 연산에 이용하는 이점.다만 2006년이라고 하면 아직 NVIDIA가 G80 코어(GeForce 8800 세대)에서 CUDA을 이용할 수 있게 된 직후인 당시로 성능도 미흡하고 배정밀도 부동 소수점은 다루지 않았다


우리는 알고 있듯이 Cell프로세서는 SCE의 PlayStation 3을 위해서 SCE-소니 IBM, 도시바가 공동으로 개발한 프로세서로 64bit의 PPE(PowerPC Processor Element)로 불리는 범용 프로세서에 SPE(Synergistic Processor Element)라 불리는 서브 프로세서×8을 조합한 것이다.


 

Heterogeneous의 신성 Cell 프로세서.


PPE 자체는 별로 성능이 높지 않고 주로 SPE 관리 등에 전념하는 형태로 연산 자체는 SPE이 주체로 하는 것이 일반적이었다.


이 SPE는 단정밀도 부동 소수점 연산이면 1개당 25.6GFLOPS에 이를 7개 이용함으로써 179.2GLOPS의 연산 성능을 발휘했다.

 

그리고 왜 7개인가는 8개의 SPE 중 1개는 무효화되고 있어(이는 수율 개선 때문)만일 8개로 유효하게 하면 204.8GFLOPS가 되는 계산이다.

 

추가로 만일 PPE도 풀로 연산을 시켰을 경우의 피크 성능은 230.4GFLOPS가 되는 계산이지만 여기까지 성능이 나오지는 못한 모양이다.



 

ASC Project가 선택한 것은 AMD 옵테론과 셀(Cell)


ASC Project는 최종적으로 이 Cell을 기반으로 한 Heterogeneous의 시스템을 구축하는 계약을 2006년 9월에 IBM과 맺었다. 계약은 3단계로 나뉘며 이하의 3단계로 시스템을 납품하게 됐다.


Phase 1: Opteron 프로세서를 이용한 Base System
Phase 2: Opteron에 Cell을 조합한 부분적인 실증 시스템
Phase 3: Opteron+Cell의 완전한 시스템

왜 IBM이 자신들의 Power/PowerPC, 인텔의 CPU를 사용하지 않고 AMD의 Opteron을 선택한 것인가 하면, 2006년 당시에 IBM은 POWER 5+인데 작동 주파수는 2.3GHz 정도로 절대적인 연산 성능은 높았으나 소비 전력도 컸다.


한편 인텔은 작동 주파수가 더 높은 Dempsey/Tulsa 세대를 이때 투입했으나 이는 Ceder Mill기반 코어로 작동 주파수는 몰라도 성능은 낮았다.

 

원래 Opteron 코어는 나중에 등장하는 Cell에 대해 데이터 분배를 하는 역할이어서 반드시 높은 성능은 불 필요하고, 오히려 I/O의 산출량 및 저전력이 요구되는 덕목이었다.

 

이점에서 Hyper Transport Link를 사용하고 I/O을 확장할 수 있는 Opteron 계열은 칩셋 경유로 I/O에서 인텔과 IBM 프로세서보다 오히려 뛰어나다는 판단을했다고 생각된다.

 

실제로 로스앨러모스 국립 연구소에 설치된 RoadRunner에 이용된 것은 1.8GHz 구동의 "Opteron 2210"이었다.

 

그런데 Phase 1에서 납품된 것은 LS21과 Expansion blade의 구성(아래 그림)이다. LS21은 얇은 블레이드 구성 2P 서버로 실제로는 그림보다 좀 더 복잡하다. Hyper Transport Tunnel로 사우스 브리지도 탑재, 이에 다양한 주변 회로나 기동용 SAS HDD 등도 이용이 가능하지만 일단 그림에서는 생략하고 있다.


얇은 블레이드 구성 2P 서버 "LS21". IBM BladeCenter LS21/LS41의 Installation and User's Guide에서 발췌


LS21과 Expansion blade의 구성


이에 조합하는 형태로 Expansion blade라고 불리는 것이 역시 같은 사이즈로 포개졌다. 이쪽의 내용은 2개의 Opteron 앞에 2개의 Hyper Transport Link x16을 커넥터 경유로 연결, 그 앞에 Broadcom의 "HT2100"이라는 Hyper Transport/PCI Express 브리지에 접속하고 있다.


"HT2100"는 원래 ServerWorks가 발매하고 있던 것으로 2001년에 Broadcom이 회사를 인수, 이 당시는 Broadcom의 제품으로 제공되고 있었다.

 

구조는 아래의 사진6 처럼 x16의 Hyper Transport Link에서 CPU와 접속하고 여기서 5ch, x24레인의 PCI Express Gen 1레인을 출력한다는 것이다.

 


Broadcom의 "HT-2100"의 카탈로그에서 발췌. 실제로 HT-2100 외에 HT-1100 사우스 브리지도 존재했지만 이는 RoadRunner에서는 사용되지 않았다



Expansion blade자신은 이를 3ch의 x8 레인이라는 구성으로 이중 2개는 이 다음에 나오는 QS22에 접속, 나머지 하나는 온보드 슬롯에 접속된다. 이 슬롯은 본래 2본분이 있는데 한쪽은 Infiniband 4x DDR 보드가 장착되어 외부의 직물에 접속되고 다른 쪽은 단순히 미사용.

 

여기서 Phase 2/3에서 어떤 구성으로 된 것인가?라는 것이 아래 그림이다. 위 절반은 Phase 1과 같지만 미사용이였던 4개의 PCI Express x8 레인의 끝에 4개의 PowerXCell 8i가 IBM 사우스 브리지 경유로 접속한다. 이 2개의 Opteron 프로세서와 4개의 "PowerXCell 8i"를 조합하는 것으로 한개의 노드를 구성했다.

 


Phase 2와 Phase 3 구성



 

배정밀도 부동 소수점 연산을 할 수 있는 Cell, 그것이 "PowerXCell 8i"


"PowerXCell 8i"는 65nm Cell의 배정밀도 부동 소수점 연산 확장판이다. 먼저 SPE는 1개당 25.6GFLOPS라는 수치를 기록하고 있지만 이는 단정밀도의 경우로 배정밀도는 1.8GFLOPS에 불과했다.


요컨대 단정밀도 부동 소수점 연산밖에 고려하지 않아 배정밀도라면 극단적으로 성능이 떨어진다. 이래서는 과학 기술 계산에는 사용할 수 없다. 거기서 배정밀도 부동 소수점 연산 능력을 강화한 것이 PowerXCell 8i.

 


"PowerXCell 8i"의 개요.  "PowerXCell와 선형 계산"에서 발췌. eDP와 X2D/DDR2 컨트롤러 때문에 전체의 코어 크기가 좀 더 넓어진

 통상 Cell의 차이점은 2가지다.


각 SPE에 새로 eDP(enhanced Double Precision)유닛을 추가하고 배정밀도 부동 소수점 연산에서 SPE 1개당 12.8GFLOPS의 연산이 가능토록 했다.메모리 컨트롤러의 X2D(XIO to DDR2)브리지를 추가하고 DDR2 메모리 컨트롤러를 탑재했다.

2번째는 원래 Cell은 아시다시피 XDR DRAM을 탑재한다. 이는 대역이 25.6GB/초로 고속 메모리 용량은(XDR DRAM에 한해서)256MB 밖에 없어 역시 이것은 과학 기술 계산에는 불 충분하다.

 

그렇다고 XDR DRAM 그대로 용량의 증가는 어렵다. 대용량의 XDR DRAM은 존재하지 않으며 XDR DRAM의 구성상 메모리 확장성이 한정됐기 때문이다.

 

거기서 XDR DRAM용 XIO라는 I/F에 DDR2와 프로토콜 변환을 하는 X2D는 브리지를 경유하여 DDR2 DIMM을 장착하도록 했다. 전송 성능이 다소 낮아지더라도 탑재할 수 있는 메모리 용량을 대폭 늘릴 수 있게 됐다(이론상 칩당 16GB).

 

이 PowerXCell 8i를 2개 탑재한 블레이드가 "QS22"로 불린다. IBM은 한개의 이용에 대비하고, PowerXCell 8i 근처에 풍부한 회로를 구현했지만 RoarRunner는 주변 회로는 거의 이용되지 않고 또 DIMM 용량도 PowerXCell 8i 1개당 4GB다.


"QS22"의 개요. 이쪽에서 직접 Infiniband HBA 및 GbE에서 접속이 가능한 구성이다


내부는 아래 사진처럼 되어 있다. RoadRunner는 3종류 4개의 블레이드를 만들어 1노드로 했다.



"QS22"의 사진. 중앙의 구리 히트 싱크 밑에 PowerXCell 8i가 위치한다. 이하의 출전은 "Roadrunner:Hardware and Software Overview"(IBM Redbook) 발췌 RoadRunner는 3종류 4개의 블레이드를 만들어 IBM은 이를 "TriBlade"라 밝혔다


노드 당 성능은 PowerXCell 8i의 SPE만을 사용한 경우 409.6GFLOPS, PPE도 참여시키면 435.2GFLOPS다. 또 Opteron에도 만일 계산을 시켰다면 이론상으로는 14.4GFLOPS 정도가 추가 되지만 역시 여기까지 쓰는 경우는 없었다.

 

PPE코어도 계산에 맞추면 SPE코어의 제어가 늦고 프로그래밍이 어려운 것도 있어 오직 SPE에서 계산하고, PPE는 SPE제어 Opteron은 데이터 입출력 등에 전념한 형태다.

 

일단 1개의 Opteron 코어로 1개의 PowerXCell 8i가 짝을 이루고 메모리도 코어 주변 4GB에 갖춘 것은 이 근처를 프로그래밍에서 쉽게 다룰 수 있도록 하겠다는 배려로 생각한다.

 

랙 하나에는 이 TriBlade가 12개 인입되고 이것이 1개로 4915.2GFLOPS로 약 5TFLOPS이므로 이것을 200개 늘어놓으면 1PFLOPS.

 


랙의 구조. 하얀 블레이드는 미사용 슬롯으로 보인다


실제로는 Compute Rack와 I/O+Compute Rack, 그리고 Switch&Service Rack 16개로 1개의 Connection Unit이라고 불리는 그룹을 형성했다.



Connection Unit 구성. I/O에는 IBM의 X3655가 이용됐다. 이는 Opteron 2218을 듀얼로 탑재하는 블레이드에서 RAIO 컨트롤 등도 탑재한다


1개의 Connection Unit에는 180개의 TriBlade(=노드)가 장비된 것으로 Connection Unit당 73.7TFLOPS 정도가 된다.

 

이 1개의 클러스터 인당 1개 288포트 Infiniband Switch가 탑재되면서 Connection Unit 내의 노드는 1hop으로 다른 노드와 연결된다. 참고로 288포트 중 180포트는 직접 각 노드에 12개는 I/O 노드에 연결되고 나머지 96포트가 상위 스위치에 연결된다.

 


이는 Roadrunner Technical Manager의 Ken Koch씨의 논문 "Sweep3D(Sn transport)&other key Roadrunner applications"에서 발췌. 노드 수가 많은 것은 I/O 노드도 포함하고 있기 때문.(180 TriBlade+12 I/O)×18=3456


Infiniband 자체는 x4 DDR이므로, 신호 속도 자체는 20Gbps인데 Embedded Clock을 사용하기 위한 실질적인 데이터 전송 속도는 16Gbps이다.

 

Connection Unit은 모두 18개로 이 Connection Unit들은 8대의 Infiniband Switch에서 상호 접속되지만 각각의 Connection Unit과 Switch 사이는 12링크로 연결되는 Fat Tree로 구성되어 있다. 피크 성능 1.3PFLOPS를 넘는 시스템이 이것으로 완성된 형태다.

 

 

실효 성능으로 1PFLOPS을 넘겨

시스템은 2008년 5월 뉴욕에 있는 IBM의 공장에서 풀 시스템으로 생산되고, 그 후 뉴 멕시코 로스앨러모스 국립 연구소에 여름 쯤에 납품됐다. 이 공장에서 생산된 시점에서 실효 성능으로 1PFLOPS을 넘겨 2008년 6월 TOP500에서 BlueGene/L를 넘어서고 No.1를 차지했다.

 

로스앨러모스 국립 연구소에 납품 후에는 약간의 성능 개선을 달성해 2009년 6월까지 TOP500에서 1위 자리를 지켰다.

 

그 후로는 다소 구성을 바꾼 상태로 운용된 것 같지만 2012년 11월 시점에서도 아직까지 22위에 랭크되어 있는 것은 절대 성능이 꽤 강력한 머신이었던 것은 틀림 없다.

 

효율은 이론 성능의 1375.8TFLOPS에서 실효 성능 1042.0TFLOPS로 76%에 가까운 것으로 나쁘지 않다. 1042TFLOPS에서 소비 전력은 2345KW로 성능/소비 전력비는 444.3KFLOPS/W로 이쪽도 뛰어나게 좋은 숫자였다.

 

하지만 이후 등장한 HPC 머신은 더 좋은 성능/소비 전력비를 실현했기 때문에 로드러너(RoadRunner)의 소비 전력은 과거로 여겨졌다.

 

실제로 2012년 11월 TOP500을 보면 RoadRunner에 이어23위의 머신인 에든버러 대학에 놓인 BlueGene/Q 베이스의 DiRAC는 1035.3TFLOPS를 불과 493KW로 실현하고 있다. 결국 이 소비 전력이 걸림돌이 되어 2013년 3월말에 RoadRunner의 가동은 종료됐다.

 

참고로 IBM은 이 PowerXCell 8i를 확장한 원칩으로 TFLOPS를 실현할 수 있는 CPU를 계속 개발하고 있었다. 구체적으로는 PPE× 2+SPE× 32의 "PowerXCell 32ii", 그리고 PPE× 4+SPE× 32의 "PowerXCell 32iv"로, 최종적으로 이들 프로세서는 세상에 나가지 못하고 사라졌다.

 


출처 - http://ascii.jp

반응형
Posted by 랩터 인터내셔널