'CRAY XT5'에 해당되는 글 1건

  1. 2016.05.02 슈퍼컴퓨터 계보> Red Storm의 후계기 Cielo (CRAY XT5,6) by 랩터 인터내셔널

슈퍼 컴퓨터 역사 연재 기사 : http://raptor-hw.net/xe/index.php?&mid=page_xEcK28&act=IS&is_keyword=%EA%B3%84%EB%B3%B4&where=document&page=1

 

연재 292회에서 ASC Red Storm을 소개했는데 이 ASC Red Storm의 후계기로 볼 수 있는 시스템이 로스앨러모스 국립 연구소에 설치된 Cielo다.



 

Cielo



운용 시작은 2011년이었고 지금도 아직 로스앨러모스 국립 연구소에서 운용되고 있는 시스템이다. 위상적으로는 RoadRunner의 후계이며 RoadRunner가 2013년 은퇴한뒤 현재는 로스앨러모스 국립 연구소의 Capability Computing System의 포지션에 있다.


Capability Computing은 "계산량이 매우 많은 대규모 시뮬레이션 등을 최대한의 계산 능력을 이용해 최소 시간으로 해결" 하기 위한 것이다.


그런데 Cielo가 Red Storm의 후계에 해당한다는 것은 단순히 Capability Computing용이라고 하는 것은 아니고, Red Storm의 구조를 발전시켰기 때문이다. 거기서 Red Storm 이후의 CRAY 제품 라인을 소개한다.


 

Red Storm를 제품화한 CRAY XT3

 

연재 292편의 마지막에 썼던 대로 Red Storm구성을 CRAY는 CRAY XT3로 2004년에 제품 라인업에 추가했다.


 

"XT3". 이는 24랙 모델 구성을 CG로 만든 것이다. CRAY XT3 카탈로그에서 발췌



Red Storm자체는 최종 140랙으로 구성되어 납품됐으나 CRAY는 XT3에 대해 이하 샘플 구성을 제시하고 있다.


 

CRAY XT3의 성능
랙수 Compute PE Service PE 피크 성능 설치 면적
6개 548개 14개 5.6TFLOPS 12TILES
24개 2260개 22개 23.4TFLOPS 72TILES
96개 9108개 54개 94.6TFLOPS 336TILES
320개 30508개 106개 318TFLOPS 1200TILES



과연 랙 320개의 구성은 터무니 없을 만큼 거대한 것인데 납품 사례가 없을것 같지만 2005년 11월 TOP500의 상위 100위를 보면 아래와 같이 나름대로 팔리고 있는 것을 알 수 있다.



2005년 11월 TOP500 상위 100위 안에 있는 XT3
순위 조직 시스템명 실효 성능
10위 오크리지 국립 연구소 Jagure 15.2TFLOPS
14위 Engineer Research and Development Center DSRC Sapphire 12.2TFLOPS
33위 PSC BigBen 7.9TFLOPS
70위 Swiss National Supercomputing Centre 4.4TFLOPS



그리고 이듬해 시스템 수가 더 늘고 있는 것은 PC등과 달리 수주로부터 납품 → 시스템 구성을 거쳐 운용 개시까지 나름대로 기간이 걸리기 때문이다. 일본에서도 예를 들면 호쿠리쿠 첨단 과학 기술 대학원이 4랙 구성의 XT3를 도입해 운용하고 있다.

 

이 XT3의 바로 뒤에 CRAY는 XD1이란 랙 마운트 형태의 HPC서버 솔루션을 발표한다.



 

 

랙 마운트 형의 HPC서버 "XD1". 이 유닛 1개에 12프로세서 + 액셀러레이터가 격납되어 1개의 랙에는 총 12유닛이 설치됐다. CRAY XD1 카탈로그에서 발췌


이는 원래 캐나다의 OctigaBay Systems Corp이라는 회사가 개발한 것을 CRAY가 인수해 제품화한 것이다.

 

XD1은 XT3와 비슷한 구성이 되고 있지만 인터커넥트는 XT3의 SeaStar Link와는 전혀 다른 래피드 어레이 인터 커넥트를 이용하거나 또는 2개의 CPU에 1개씩 애플리케이션·액셀러레이터 시스템이 장착된 것이 특징이다.



 

 

XD1의 구성. 2개의 CPU와 DIMM, 그리고 액셀러레이터 등이 1장의 보조 기판에 모아지고 있다. 유닛에는 이 보드가 6장 내장


이 애플리케이션 액셀러레이터 시스템이란 FPGA로 XD1에서는 Xilinx의 "Virtex-II Pro"가 탑재되어 있었다.

 

최근에는 FPGA를 HPC에 쓰겠다는 아이디어가 한창 논의되고 있는데 2004년 당시는 다소 시기 상조였던 것이며 XD1도 만들어 보기는 했으나 FPGA에서 생각한 프로그래밍이 어렵다는 말이 있어 결국 XD1은 그만큼 널리 사용되지 못하고 끝났다.



상업적으로 성공한 XT3의 후계 TX4


XT3의 후계가 되는 것이 XT4다. XT3와 XT4의 차이는 프로세서가 90nm세대의 Italy코어(Socket 940/DDR SDRAM 대응)에서 90/65nm세대의 Santa Rosa/Butapest코어(Socket F/DDR2 SDRAM 대응)으로 변경된 것과 노드간 접속이 기존 SeaStar에서 SeaStar2로 변경된 점 2가지다.




CRAY XT4의 구성

HyperTransport Link가 6.4GB/sec

SeaStar2의 구조는 이것만 보면 SeaStar1과 구별할 수 없다.



우선 프로세서에 대해서 말하면 Italy가 95W의 TDP에 최대 2.6GHz 구동의 듀얼 코어였던 반면 Santa Rosa는 같은 95W TDP 범위에서 3GHz까지 동작 주파수를 올렸다. Barcelona는 2.3GHz까지 작동 주파수는 떨어졌지만 코어 개수는 배가 되어 노드당 계산 능력은 1.8배가 된다.

 

또 대응 메모리가 DDR2-SDRAM으로 변경되어 메모리 대역이 배증했으며 메모리 액세스를 사용하는 계산에 있어 성능 향상이 도모됐다.

 

한편 SeaStar2의 기본적인 구성은 SeaStar1과 다르지 않다. 사양의 차이는 주로 SeaStar의 ASIC과 Opteron을 잇는 하이퍼 트랜스포트 링크의 I/F이며 초기 SeaStar는 6.4GB/초의 쌍방향 실효 대역이 2.17GB/초였던 반면 SeaStar2는 여기가 8GB/초로 향상되고 있다.


이 XT4는 XT3의 업그레이드 형태로 이용된 경우도 많았다. 예를 들면 오크리지 국립 연구소의 Jagure는 2005년에 XT3 기준으로 구축됐지만 2006년 말에 XT4 베이스로 업그레이드됐으며 2007년 6월 TOP500에서는 101.7TFLOPS로 2위를 확보하고 있다. 2007년 11월 TOP500의 상위 100위를 보면 이하의 기관이 XT4를 도입하고 있다.



 

2007년 11월 TOP500 상위 100위 안에 있는 XT4
순위 조직 시스템명 실효 성능
7위 오크리지 국립 연구소 Jagure 101.7TFLOPS
9위 미 에너지부
로렌스 버클리 국립 연구소
국립 에너지 연구 과학 센터
Franklin 85.4TFLOPS
17위 에든버러 대학 HECToR 54.6TFLOPS



또, RedStorm도 2008년에는 일부를 XT4에 걸맞게 바꾸고 있으며 XT4도 나름대로 상업적으로 성공한 모델이다.


TX4의 성능을 향상시킨 TX5 수랭 옵션도 추가

 

이 XT4를 더욱 강화한 것이 2007년에 발표된 XT5 시리즈다. XT4에서 변경점은 이하의 4가지


CRAY XT5 랙 위에 있는 것은 수랭식 유닛으로 랙 우단의 서비스 유닛에 접속되고 있다.

  • ·프로세서 코어는 XT4와 마찬가지로 Opteron 2000시리즈의 쿼드 코어를 이용하지만 1개의 컴퓨트 노드에 2개의 Opteron코어가 장착된다.
    ·4개의 컴퓨트 노드도 준비하고 1장의 블레이드를 구성했다
    ·인터 커넥트는 SeaStar2+로 업그레이드
    ·공랭 이외에 수랭식 옵션이 분비


우선 프로세서는 당초 Barcelona코어에서 동작 주파수가 오르지 못해 고투했지만 이어 투입된 45nm프로세스인 Shanghai베이스의 4코어, 혹은 Istanbur기반의 6코어 Opteron을 이용함으로써 동작 주파수 상승이 가능하게 됐다.

 

혹은 동작 주파수를 떨어뜨리지 않고 소비 전력이 감소되어 일단 성능 면에서 문제는 일단락되고 있다.

 

또 이 세대에는 2개의 Opteron을 하이퍼 트랜스포트 링크로 연결, 한쪽에만 SeaStar ASIC를 잇는 것으로 프로세서의 밀도를 높이고 있다.


 


  XT4 구성 그림과 비교하면 TX5의 차이를 알기 쉽다. 참고로 서비스 노드는 계속 Opteron은 1개지만 XT4는 PCI-X ×2 였던 I/O 링크가 PCI Express로 변경

아래의 사진이 XT5 블레이드인데 이런식으로 8개의 프로세서와 32개의 DIMM슬롯, 그리고 4개의 SeaStar2+ASIC을 만들어 1장의 블레이드를 구성함으로서 실장 밀도를 높이고 있다.

 


XT5 블레이드. 위에 4개 나란히 있는 히트 싱크가 SeaStar2+ASIC, 그 옆에 8개가 나란히 있는 것은 VRM 모듈 같다


실장 밀도를 그냥 끌어올리면 방열의 문제가 당연히 생기게 되는데 이에 대해 XT5는 종래의 공랭에 수랭식 옵션도 제공하고 있다.

 


XT 5블레이드의 히트싱크에 접하는 형태로 수랭식 헤드가 장착되어 그 배액이 곧장 랙 위에 나타나고 가로 방향으로 뻗어 있을 것이다. 참고로 냉각에 이용되는 것은 R134a


SeaStar2+ 자체는 종래의 구조와 크게 달라지진 않는다. 다만 SeaStar간의 링크가 7.6GB/초에서 9.6GB/초로 향상된 것이 SeaStar2의 차이점이다.




SeaStar2+구조. 기본 구조는 종래와 달라지지 않아도 프로세스 미세화 등은 당연히 이루어진다


XT5 역시 나름대로 널리 이용됐다. 2009년 6월 TOP500 상위 100위를 보면 다음과 같이 CRAY 자신의 것을 제외해도 좋은 대수가 운영되고 있다.



2009년 6월 TOP500 상위 100위 안에 있는 XT5
순위 기관 시스템명 피크성능
2위 오크리지 국립 연구소 Jagure 1059.0TFLOPS
6위 미 해군 범죄 수사국/테네시 대학 Kraken 463.3TFLOPS
23위 Swiss National Supercomputing Centre Monte Rosa 117.6TFLOPS
39위 NOO/NAVO   90.8TFLOPS
48위 미 육군 연구소   76.8TFLOPS
57위 CRAY Shark 67.8TFLOPS


특히 오크리지 국립 연구소는 계속적으로 Jagure를 업그레이드했으며 2005년부터 2009년 사이에 15.2TFLOPS→ 1059TFLOPS까지 성능을 높였다.


그리고 XT5에는 XD1과 비슷한 Opteron+FPGA 구성의 CRAY XR1 블레이드, 그리고 CRAY가 종래부터 지원해 온 벡터 방식을 계승한 "CRAY X2"라는 자체 프로세서를 탑재한 X2도 준비되어 이것들을 혼재시키는 것도 가능했다.

 

또 SeaStar2+ 링크를 4개로 제한하고 2차원 구조로 메시 연결한 저가 모델의 CRAY XT5m 이라는 모델도 추가되고 있다.

 



메모리가 DDR3로 바뀐 CRAY TX6

 

XT5의 후계가 되는 것이 2009년에 발표된 XT6다. XT5와의 차이점은 프로세서가 Socket F기반인 것부터 Socket C32/G34의 Opteron 6000 시리즈로 변경 된 것이다.


이에 따른 메모리도 DDR3로 바뀌고 있다. 다만 인터커넥트는 계속 SeaStar2+로 그 의미에서 블레이드 외의 구성 요소는 기본적으로 XT5와 같으므로 XT5에서 XT6로 업그레이드도 쉬웠다.


 


CRAY XT6는 여러가지 배치가 바뀐다


또 XT5m의 후계로서 XT6m도 함께 제공되고 있다. 다만 XT6는 CRAY가 기대한 정도로 팔리지 않은 모양이다. 2010년 6월 TOP500을 차지한 것은 이하 대로다.



2010년 6월 TOP500 상위 100위 안에 있는 XT6
순위 기관 시스템명 피크성능
16위 에든버러 대학 HECToR 274.7TFLOPS
76위 스웨덴 왕립 공과 대학   75.1TFLOPS
97위 CRAY Tuna 53.2TFLOPS



스웨덴의 시스템은 XT6m이다. 기타 기존의 XT5 사용자는 예를 들어 오크리지 국립 연구소는 6코어 2.6GHz의 Opteron을 탑재한 CRAY XT5-HE로 전환하고 있어 실제 2010년 6월에는 1759.0TFLOPS로 TOP500의 1위를 획득했다.

 

이 CRAY XT5-HE를 선택한 곳은 또 몇군데 있다. 다음 2010년 11월 목록을 보면 이 XT6를 빼고 후계 XE6를 택한 곳이 적지 않다.


최고 성능의 머신 Cielo

 

드디어 본론의 XE6다. 기본적인 구조는 XT6와 같지만 큰 차이는 인터커넥트에 SeaStar를 대신해 Gemini를 채용한 것이다.

 

아래 사진이 Gemini의 구성이며 4개의 Opteron프로세서가 연결되고 또 외부 링크를 10개(각각 9.3GB/초) 가진 구성이다. 하이퍼 트랜스포트 링크도 10.4GB/초로 향상됐다.


 


Gemini 구성


CRAY에 의하면 이 Gemini는 10만 노드가 넘는 시스템을 구축하는 것을 목적으로 하고 있으며 이를 위해 SeaStar을 대규모로 확장한 것이 Gemini인 셈이다.

 

 


XE6 프로세서 주변부에는 차이가 없다


XE6가 발표된 것은 2010년 5월이지만 이에 앞서2010년 4월 핵안전 보장국은 CRAY와 XE6기반으로 Cielo를 구축하는 계약을 맺는다. 계약 금액은 5400만달러 미만으로 2010년 3분기부터 설치를 시작하고 2011년에는 운용을 시작했다.

 

최종 구성은 8코어/2.4GHz구동 Opteron 6136을 기반으로 한 14만 2272코어(즉 프로세서 수는 1만 7784개)의 구성. 성능은 1110TFLOPS로 이론 성능의 1365.8TFLOPS와 비교해 81.3%의 효율을 자랑하며 이 정도의 대규모 시스템으로서는 상당히 높다고 해도 좋은 것이다.

 

로스앨러모스 국립 연구소는 현재 이 Cielo가 최고 성능의 머신이며 지금 당장은 운용이 계속 된다고 생각된다.

 

그리고 CRAY는 XE6 블레이드로 NVIDIA의 Tesla X2090을 조합한 CRAY XK6와 Tesla K20을 조합한 CRAY XK7등을 발표한다. 그리고 AMD Opteron시리즈 업데이트가 사라져 아키텍처를 인텔의 제온으로 전환하고 CRAY XC 또는 CRAY CS라는 라인업을 메인으로 잡아 AMD 기반의 XT/XE 시리즈는 "과거의 제품" 취급을 받게 된다.

 


출처 - http://ascii.jp

 

슈퍼 컴퓨터 역사 연재 기사 : http://raptor-hw.net/xe/index.php?&mid=page_xEcK28&act=IS&is_keyword=%EA%B3%84%EB%B3%B4&where=document&page=1

반응형
Posted by 랩터 인터내셔널