이번 슈퍼 컴퓨터 계보는 ASCI Q를 설명한다.

 

ASCI Q

 

처음은 30TFLOPS, 이어 100TFLOPS를 겨냥한 ASCI Q

지난번 처음 언급한 대로 ASCI의 다음 타깃은 30TFLOPS 다. 맨 처음 계획은 1998년 중에 계약을 마쳐 2001년 중에 운용에 들어가는 것을 목표로 했다. 다만 여러가지 시스템 선정이 늦어져 최종적으로 에너지부가 ASCI Q에 추가로 COMPAQ과 계약한 것은 2000년 8월 22일이다.

 

이때 계획은 375시스템의 Alpha GS320 Server를 납입하고 30TFLOPS를 노렸다. 나중에 이 시스템을 Alpha EV7 내지 Alpha EV8로 업그레이드하는 것으로 100TFLOPS를 염두에 둔 옵션도 마련됐고 최초의 시스템은 2002년 이른 시기에 100TFLOPS, 업그레이드 시스템은 2004년에 각각 운용을 개시하기로 했다.

 

계약 금액은 약 2억달러로 당시 환율로 환산하면 대략 210억엔 정도 되고, ASCI White의 두배다. 참고로 이건 ASCI Blue Mountain의 후계로서 로스앨러모스 국립 연구소에 설치됐지만 ASCI Blue Mountain 자체는 2004년 11월까지 운용되고 있어 다른 설치 장소가 필요했다.

 

이 때문에 로스앨러모스 국립 연구소는 ASCI Q에 맞춰 SCC(The Stragegic Computing Complex)로 불리는 건물을 6400만달러를 들여 건설했다. 그리고 이 건물은 2002년에 "Nicholas C. Metropolis Center for Modeling and Simulation"으로 명명.


 

ASCI Q에 채용된 첫 64bit RISC 프로세서 "Alpha"

 Alpha Server에 이용되고 있는 Alpha라는 프로세서에 대해서 좀 소개해 보고 싶다. Alpha 프로세서는 원래 DEC(Digital Equipment Corporation)이라는 회사가 1980년대 후반부터 개발을 시작한 칩이다.

 

이 회사는 원래 PDP 16bit의 머신을 개발·판매한 업체다. 첫 Unix는 PDP-7로 UNIX가 널리 보급되게 만든 System V6는 PDP-11상에서 동작하고 있으며 이것을 목적으로 PDP-11을 도입한 사이트도 적지 않았다고 한다.

 

DEC는 PDP-11에 이어 완전한 가상 기억에 대응하는 32bit OS를 지원한 VAX로 불리는 프로세서가 아닌 시스템을 1977년에 발표, 주류는 이쪽으로 넘어간다.

 

VAX는 프로세서 아니라 시스템인 것은 당시 기술로는 CPU 칩 하나로 극복하는 것이 아니라 대대적인 기판에 여러개의 칩을 조합하는 CPU 보드의 구성을 취하고 있었기 때문이다.

 

그 후 이 회사는 VAX의 고성능화와 원칩화를 추진하고 설계 기술이 어쨌든 반도체 제조 기술에 뒤져 1980년대 후반이 되면서 성능 면에서 타사(주요 경쟁은 IBM이었는데 그 외에도 많은 업체가 DEC의 시장에 성능/가격으로 도전해 왔다)에 추월당해 버렸다.

 

이 열세를 한꺼번에 뒤엎기 위해 복수의 프로젝트가 진행했고 그 중에 PRISM이라는 코드명으로 알려진 RISC프로세서 프로젝트도 포함됐다. Alpha는 이 PRISM에서 많은 성과를 이용하면서 첫 64bit RISC 프로세서로 다시 개발이 시작된다.



 

OS의 이식을 용이하게 하는 프로세서 EV4 "Alpha AXP 21064"

 

처음에 등장한 것이 "Alpha AXP 21064"칩으로 통칭 EV4로 불린다. EV는 "Extended VAX"의 약어로, 4는 이용한 프로세스 노드(CMOS-4:0.75μm)를 나타낸다. 이에 앞서 EV3이라는 CMOS3(1.0μm 프로세스)를 이용한 테스트 칩도 제조됐지만 이쪽은 다이 사이즈의 제한도 있어서인지 FPU가 없는 설계가 되어 있어 양산에 이르지 못했다.


그 EV4의 내부 구조는 아래의 사진과 같다. 명령 디코딩을 하는 IBoX, 정수 연산을 행하는 EBox, 부동 소수점 연산을 행하는 FBox와 주소 제어를 하는 ABox라는 4개 블록, 이것에 캐시와 레지스터 파일로 구성된다.

 


EV4의 내부 구조. 이것은 대략적인 것으로 실제로는 좀 더 복잡하다. 캐시 크기는 명령 데이터에 8KB. IEEE Micro June 1993의 "The Alpha AXP Architecture and 21064 Processors"


다이 크기는 14×17mm의 238mm2, 트랜지스터 수는 168만개라고 발표됐다. 동작 주파수는 최대 200MHz이며 이는 당시로서는 상당히 빠른 축에 든다.

 

명령 세트는 독자적인 것으로 VAX와 호환성은 없다. 원래 64bit로 확장한 시점에서 명령의 호환성을 유지하는 것은 어렵고 그 보다 VAX는 CISC의 명령 세트를 추가 하면 RISC의 이점을 다 깨뜨릴 수 있기 때문이다.


다만 컴파일(및 최소의 수정)으로 어플리케이션을 이행할 수 있는 배려가 이루어졌다. 그 으뜸가는 것이 PALcode(Privileged Architecture Library code)로 이름대로 특권 명령을 커스터마이즈 할 수 있는 것이다.


Alpha의 경우 동사가 제공하던 VMS라는 OS가 4단계 수준의 보호 메커니즘을 필요로 하는 한편 UNIX는 2차원에서 구현되어 있었다. 그 외에도 Windows NT의 이식이 예정 되었으며 이러한 OS의 요구에 따라 다른 PALcode를 제공함으로써 OS의 이식을 용이하게 하겠다는 배려가 이루어졌다.


또 일부 명령은 하드웨어에서 구현하지 못하고 이를 커버하기 위해 Trap barrier한 구조가 준비되고 있다. 이것은 "정의되고 있지만 구현되지 않은" 명령이 도달한 경우에 발동되어 통상적인 명령 처리를 중단하고 소프트웨어에서 이를 처리하라는 것이다. 이런 장치를 가진 프로세서는 Alpha 이외 별로 접한 적이 없다.


파이프 라인은 아래 사진에서 정수 연산과 부동 소수점 연산을 동시에 벌이는 In-Order의 2-way 슈퍼 스칼라 구성이다. 다만 2명령 동시 실행이라고 해도 정수 연산은 1명령/사이클이라 실효 성능이 다소 뒤떨어진다.

 


EV4의 파이프 라인. 정수로 6스테이지, 부동 소수 점에서 9스테이지는 당시로서는 긴 편에 속한다. 출처는 앞의 사진과 마찬가지

 

이 회사의 자료에 따르면 200MHz의 EV4의 성능은 SPECint92가 104.3, SPECfp92가 200.4으로 알려졌다. 약간의 후가 되는 1994년에 투입된 P54C 기반의 Pentium 100MHz가 각각 95.0/86.1, 혹은 1994년에 투입된 100MHz의 PowerPC 604가 각각 105.9/108.2라는 스코어를 냈고 동작 주파수와 비율을 생각하면 부동 소수점 연산 성능은 정수 연산 성능 만큼 충분하다고는 말할 수 없었다.

 

거기에서 1993년 10월에서 1994년에 투입된 것이 EV45의 Alpha AXP 21064A이다. 이것은 프로세스를 CMOS5(0.5μm)에 미세화하고 캐시 크기를 명령/데이터 모두 16KB로 강화했다. 또 FPU의 성능 개선이나 분기 예측 장치의 버퍼 확충 등 세세 부분에 수정을 가하는 동시에 작동 주파수를 최대 300MHz까지 끌어올리는 데 성공한다.

 

 

EV4 2배 크기의 슈퍼 스칼라 EV5 "Alpha 21164"

1995년에는 후계로 EV5의 "Alpha 21164"가 투입된다. 4명령을 동시 실행하는 EV4의 2배 크기의 슈퍼 스칼라가 최대 특징이다.

 

이에 따른 정수 연산 성능을 대폭 올리고 부동 소수점에서는 덧셈과 곱셈을 동시에 할 수 있었으므로 MAC 연산이 외관상 1사이클에서 시행될 수 있게 된 점도 크다.

 


EV5의 구조. 이전의 영상과 비교해 보면 FPU명령이 8단으로 처리가 끝나는 등 약간의 차이가 있지만 기본적으로는 21064의 실행 유닛을 배가시킨 느낌이다. 출처는 "Alpha 21164 Microprocessor Data Sheet"(EC-QP98C-TE)

 


참고로 EV5 자체는 최대 333MHz(당초는 300MHz로 한 것) 구동으로 알려졌지만 이 후계로 EV56 이 1995년 말에 발표돼 1996년부터 양산한다. 이것은 프로세스를 CMOS5(0.5μm)에서 CMOS6(0.35μm)로 미세화 한 버전으로 최대 작동 주파수는 700MHz에 달했다.

 

SPEC CPU 95의 결과를 보면 612MHz 구동의 Alpha 21164는 SPECint95 18.4/SPECfp95 20.8이란 점수가 제시되고 있다. 이 결과 테스트 시기(1997년 9월)에 가까운 것을 찾자 인텔의 Pentium 233MHz가 각각 7.03/5.18, IBM의 332MHz Power604e가 12.9/6.21이며 이 세대의 프로세서와 비교하면 머리 하나가 더 있는 성적을 유지하고 있다.

 


 

Out-of-Order를 구현한 EV6 "Alpha 21264"

 

이어 1996년 10월 Microprocessor Forum에서 EV6 "Alpha 21264"가 발표된다. 내부 구조는 4-way 슈퍼 스칼라라는 점은 EV5와 함께 끝내 Out-of-Order를 구현하게 됐다.

 

이에 따라 ALU 구조가 크게 변화하고 있다. 아래의 사진이 21264 내부 구조지만 정수 연산부는 2반 ALU와 그와 대칭되는 주소 계산 단위가 준비되어 있다.

 


21264 내부 구조. MicroDesign Resources의 Microprocessor Report Oct 28,1996에서 발췌. 이는 MicroProcessor Forum에서 발표한 것

 

주소 계산 단위의 역할은 정수 연산에 따른 메모리 액세스가 발생할 경우 이를 처리하는 것이다. 이는 AMD의 K7 등과 가까운 발상이지만 Alpha의 설계 팀이 통째로 AMD로 이동하고 개발을 했으니 당연히 같다고 해야 할까.

 

파이프 라인은 정수 연산이 7스테이지, 메모리가 9스테이지, 부동 소수점 연산이 10스테이지로 Out-of-order를 구현한 것 치고는 적다고 느껴진다.


프로세스는 계속 CMOS6을 이용해 당초 동작 주파수는 500MHz으로 알려졌다(참고로 이 발표 시점에서는 EV56도 아직 500MHz 구동이었다).

 

소비 전력은 이 500MHz 버전에서 60W로 추정되고 있으며 훌륭한 크기지만 최종적으로 600MHz 까지 작동 주파수는 올라 소비 전력은 110W에 달했다.

 

이 EV6의 개량형으로 Samsung의 0.25μm 프로세스를 이용하고, 동작 주파수를 833MHz까지 올린 것이 EV67로 이는 1999년 말에 시장에 투입된다.


또 2000년에는 IBM의 0.18μm+구리 배선 프로세스를 이용한 EV68C가 샘플 출하를 시작해 최종적으로 1.25GHz까지 동작 주파수가 상승했다. ASCI Q에서 이용된 것은 이 1.25GHz 구동의 EV68C.

 

 

EV8까지 이어지는 후계 프로세서

2002년에는 EV68 코어를 이용하면서 대용량 2차 캐시와 4ch의 Direct RDRAMr, 그리고 프로세서 간을 하이퍼 큐브 구성의 전용 링크로 접속하기 위한 라우터를 추가한 EV7 "Alpha 21364"이 발표된다.


각 프로세서에 직접 메모리를 접속함으로써 성능 향상을 도모한 EV7. 출처는 2001년 Hot Interconnects에서 발표된 논문 "The Alpha 21364 Network Architecture"


당초는 1999년 중에 테이프 아웃해 2000년에는 양산 예정이었으나 실제 테이프 아웃은 2001년 4월까지 지연되면서 출하는 2002년에 들어선다. 최고 작동 주파수는 EV68처럼 1.25GHz으로 알려졌지만 실제 제품은 최대 1.15GHz가 종점이 됐다.

 

이를 IBM의 0.13μm SOI 프로세스로 동작 주파수를 1.45GHz까지 올릴 예정이었다 EV79는 2003년에 취소되며 프로세스를 바꾸지 않고 1.3GHz까지 동작 주파수를 올린 EV7z이 1994년에 투입되고 이것이 마지막 Alpha가 되었다. 계획에서는 또 4-way SMT를 채용한 EV8도 있었지만 이것도 취소되고 있다.

 


EV8의 파이프 라인. 기본적으로는 EV7의 CPU 코어를 4스레드 대응 SMT 하는 것 이외는 EV7과 같은 구성으로 되어 있었다. 출처는 1999년 Microprocessor Forum의 EV8의 프레젠테이션 자료

 

COMPAQ이 DEC를 인수해 ASCI 프로젝트에 참여

이 Alpha를 설계·제조하던 DEC는 1990년대 전반부터 급속히 실적이 악화됐다.


DEC의 실적은 회복되지 않고 결국 1998년 6월 이 회사는 COMPAQ에 인수됐다. COMPAQ은 매우 강력한 서버 제품의 라인 업을 손에 넣고 이를 바탕으로 ASCI 프로젝트에 참여하기로 결정했다.

 


ES45라는 머신 3000대로 30TFLOPS를 실현할 계획


결과적으로 COMPAQ은 떳떳하게 ASCI Q라는 명칭으로 30TFLOPS의 프로젝트를 수주할 수 있었다. 그곳에서 Alpha GS320을 바탕으로 이 시스템을 구축할 예정이었다. 베이스가 되는 것은 AlphaServer ES45로 불리는 4프로세서/최대 32GB 메모리의 8U 랙형 머신이다.


ES45 내부는 아래의 사진처럼 4개의 CPU와 최대 32GB의 메모리, 그리고 PCI 버스가 칩셋(스위치)에 닿아 있는 셈이다. 이 ES45 1대당 성능은 1.25GHz 구동이라면 10GFLOPS가 되므로, 30TFLOPS를 실현하기 위해서는 ES45가 3000대 있으면 되는 셈이다.

 


이는 1GHz 구동의 예이므로 1.25GHz 구동의 경우 CPU와 스위치 사이의 대역은 5GB/sec(64bit@625MHz)가 되고 있다고 생각한다. 출처는 앞의 사진과 마찬가지


Alpha GS320 Server는 8개의 AlphaServer ES45를 전용 글로벌 스위치로 접속하게 되며 이것이 375대 설치되어 375×32=1만 2000CPU로 30TFLOPS인 셈이다.



Alpha GS320 Server는 8개의 ES45 칩셋들을 상호 접속 함으로써 32way의 SMP가 구성된다. 출처는 COMPAQ이 낸 카탈로그 "Compaq AlphaServer GS80/GS160/GS320"(JSV0185-05)


자, 이걸 어떻게 연결시킬 것인지가 다음의 문제지만 COMPAQ는 당시 Quadrics사의 Network(QsNet)를 이용하고 있었다. 이 QsNet 용 어댑터는 Elan으로 불리며 ES45의 64bit/66MHz PCI 버스에 장착된다.


Elan 어댑터의 내부 구조. 참고로 Thread Processor는 32bit의 SPARC 프로세서가 이용되고 있었다고 한다. 출처는 로스앨러모스 국립 연구소가 2001년 Hot Interconnects에서 발표한 논문 "The Quadrics Network(QsNet):High-Performance Clustering Technology"


이와 짝을 이루는 것이 Elite로 불리는 스위치로 8개의 링크를 가질 수 있다. 이 Elite로 Fat-tree의 구조를 형성하는 방식으로 AlphaServer ES45 사이를 접속했다.


동그라미가 Elan, 사각이 Elite. 대수가 많아서 Fat Tree 자체가 2단 구성으로 되어 있을게 분명하다. 출처는 로스앨러모스 국립 연구소가 2003년 Hot Interconnects에서 발표한 "Scalable Collective Communication on the ASCI Q Machine"


Elite 자체는 8개의 링크를 갖고 4up/4down 구성이지만 2/3단 Tree의 노드에는 이것으로 부족해 Elite자체를 여러개 조합해 2단은 16up/16down, 3단은 64up/64down이라는 강렬한 스위치를 만들고 있다.

 

당연히 성능은 별로 좋지 않아 예를 들면 대역은 128노드 부근까지는 250MB/초 이상을 유지하는 것이 거기에서 급격히 악화되어 1024노드에서는 100MB/초 정도다.

 

노드 간 동기를 취하는 장벽의 처리를 할 경우 하드웨어 기반에서는 1024노드에서 10마이크로 초 정도지만 소프트웨어 베이스에서는 30마이크로 초를 요하는 등 노드 수가 늘어나면 성능이 급격히 나빠지는 것으로 확인됐다.

 

 

20TFLOPS서 끝난 ASCI Q

ASCI Q의 문제는 더 근본적인데 있었다. 2001년 6월 COMPAQ은 Alpha 프로세서의 개발을 2004년까지 중단하고 이 회사의 소프트웨어 자산을 Itanium으로 이행하는 것을 발표했다. 이 결과로 당초 발표된 EV7/8 베이스의 시스템에서 100TFLOPS라는 계획이 틀어졌다.

 

다음 2002년 6월, 로스앨러모스 국립 연구소의 내부에서 ASCI Q가 예정대로 진행되지 않은 것이 익명으로 고발됐다. 원래 10TFLOPS에서 1.25GHz의 EV68이 1024노드(4096 프로세서) 설치되어 있어야 했지만 실제로는 1GHz의 EV68이 납품되고 8TFLOPS 상당의 성능일 뿐 이라는 것이었다.

 


1/3의 머신이 설치된 상태에서의 ASCI Q의 사진. 출처는 Natural Resources Defense Council 이 2004년 4월에 공개한 "WEAPONEERS OF WASTE"


이때 로스앨러모스 국립 연구소의 대변인은 이는 3단계로 나눠진 납품의 첫편이며 2002년 말까지는 30TFLOPS의 머신이 설치된다고 했다.

 

다만 이후도 스케줄대로는 설치가 진행되지 않고 2004년도의 핵안전 보장국의 예산 요구 중에서 ASCI Q의 일정이 지연되고는 있지만 최종적으로 30TFLOPS의 머신을 설치하는 것이 제시됐다.

 

2005년도 요구에서는 "20TFLOPS의 ASCI Q가 운영된다"로 변해 버렸다. 요컨대 COMPAQ은 20TFLOPS 분의 머신 밖에 납입하지 못한 셈이다.

 

도대체 무엇이 있었는지는 여기에서 알기 어렵고, Delivering Insight ASCI에 이르러서는 마치 처음부터 30TFLOPS의 계획은 없었던 것처럼 "2000년에는 20TFLOPS의 피크 성능을 가진 ASCI Q 시스템이 로스앨러모스 국립 연구소에 설치된다"로 슬쩍 흘리고 있는 모습, 뒤에서 어떤 소동이 있었는지 생각하는 것도 두렵다. 최종적으로 ASCI Q는 2048node/8192 프로세서로 구성되어 끝났다.

 

더 나쁜 것은 그 ASCI Q가 그 전의 ASCI Blue Mountain에 비해 실제로는 시스템 안정성이 나쁜, 2002년 시점에서는 쓸모 없다고 판단되고 있던 것이다.

 

2003년 2월 핵안전 보장국은 "로스 앨러모스 국립 연구소가 W76 트라이던트 SLBM(잠수함 발사 탄도 미사일)의 3차원 시뮬레이션을 ASCI Blue Mountain에서 실시한다"고 밝혔으나 실제로는 ASCI Blue Mountain에서 ASCI White를 원격으로 접속해 거기에서 시뮬레이션을 했다는 트릭은 나중에 밝혀지고 있다.


즉 Blue Mountain 위에서는 ASCI를 목적으로 한 핵 실험에 대한 애플리케이션은 거의 가동되지 못하고 ASCI Q로 이행시키지 않았던 것으로 보인다. 또 ASCI Q의 기동에 대부분 8시간을 요했다는 수치도 있고 무언가 있을 때마다 8시간을 기다리지 않으면 안 된다는 것은 가동률을 높이 유지하기 위해 방해가 된 것 같다.

 

성능 면에서는 TOP500에서 2003년 랭킹 2위로 잡힌 것 그것이 피크였다(참고로 이때 1위는 어스 시뮬레이터).

 

이 어스 시뮬레이터가 87.5%(이론 성능 40.96TFLOPS에서 실효 성능 35.86TFLOPS)에 이르는 것과 비교하면 상당히 뒤떨어진다.


그리고 로스앨러모스 국립 연구소가 2002년에 펴낸 카탈로그에 따르면 10.24TFLOPS 구성 상태에서 Linpack 벤치 마크를 실시하고 7.727TFLOPS의 실효적 성능을 발휘했다고(효율 75.48%) 하고 있어 인터 커넥트에 장애가 있는 것은 분명하지만 그렇다고 그렇게 간단히 해결 될 문제도 아니다.


그래서인지 2003년경부터 로스앨러모스 국립 연구소는 "기타 용도"에 ASCI Q가 이용될 수 있는 것을 적극적으로 알리기 시작해 2005년에는 로스앨러모스 국립 연구소의 Department of Theoretical Biology and Biophysics에 속하는 Kevin Y. Sanbonmatsu 박사가 ASCI Q에서 리보솜의 전사 움직임을 분자 수준에서 시뮬레이션하는데 성공한 것 등을 어필하기도 했지만 이미 때늦은 것으로 본질적인 해결은 잘 되지 않은 모양이다.

 

핵안전 보장국의 Accomplishment(업적)이라는 페이지를 보면 2003년도 회계에 이미 ASCI Q는 "retired from service"(은퇴)라는 끔찍한 것이 적혀 있다.

 

운용 자체는 2007년까지 계속 되었지만 정작 ASCI에서는 바로 발을 빼버렸던 형태로 그 의미에서는 2억달러를 시궁창에 버렸다는 평을 받는 것도 어쩔수 없다고 생각된다.

 


출처 - http://ascii.jp

반응형
Posted by 랩터 인터내셔널