'분류 전체보기'에 해당되는 글 1588건

  1. 2015.09.15 마이크론 크루셜 BX100 1TB SSD 리뷰 by 랩터 인터내셔널
  2. 2015.09.15 낸드플래시보다 1000배 빠른 인텔 3D XPoint by 랩터 인터내셔널
  3. 2015.09.15 IPC가 40% 향상된 AMD Zen과 로드맵 by 랩터 인터내셔널
  4. 2015.09.15 애플 맥북 리뷰 by 랩터 인터내셔널
  5. 2015.09.15 슈퍼컴퓨터 역사> 최초의 1PFLOPS를 달성한 IBM 로드러너 by 랩터 인터내셔널
  6. 2015.09.15 슈퍼컴퓨터 역사> 발군의 성능으로 잘 팔린 IBM 블루진(Blue Gene/L) by 랩터 인터내셔널
  7. 2015.09.15 슈퍼컴퓨터 역사> 마지막 SMP 클러스터 머신 ASC Purple by 랩터 인터내셔널
  8. 2015.09.15 슈퍼컴퓨터 역사> 기동에 8시간이 걸린 ASCI Q (알파 프로세서) by 랩터 인터내셔널
  9. 2015.09.15 슈퍼컴퓨터 역사> 핵무기 모의 실험을 위해 태어난 ASCI by 랩터 인터내셔널
  10. 2015.09.15 만물 인터넷에 대응하는 시스코 인터클라우드 by 랩터 인터내셔널

01_w_600.png



탐스 하드웨어(www.tomshardware.com)의 마이크론 크루셜 BX100 SSD 리뷰 입니다.


TABLE.png



BX100은 120GB부터 1테라바이트 모델까지 라인업 됩니다. 실리콘 모션의 SM2246EN 컨트롤러, 마이크론의 16나노 낸드 플래시가 탑재되고, 모두 보증 기간은 3년 입니다.  


랜덤 읽기 성능은 250GB까지 87,000 IOPS, 500GB 모델부터는 90,000 IOPS, 랜덤 쓰기 성능은 하위 모델부터 43,000 IOPS -  70,000 IOPS - 70,000 IOPS - 70,000 IOPS 입니다.



99_w_600.png



마이크론 SSD 관리 툴 Storage Executive 소프트웨어.



BX100.png

 




SM2246EN 컨트롤러와 2개의 DRAM 패키지, 16 NAND 패키지



40_w_600.png


41_w_600.png



50_w_600.png


57_w_600.png


58_w_600.png


출처 - http://www.tomshardware.com

반응형
Posted by 랩터 인터내셔널



미국 인텔과 Micron Technology는 양사의 공동 연구에 의한 완전히 새로운 비휘발성 메모리 3D XPoint를 개발하고 양산을 시작했다고 발표했다.

 

낸드플래시 등장이후 25년 만에 새롭게 등장한 3D XPoint는 새로운 구조로 기존 낸드 대비 최대 1000배의 고속화를 실현한다.

 

3D XPoint는 10년 이상의 연구 개발 기간을 거쳐 개발된 독자적인 크로스 포인트 아키텍처를 탑재한다. 워드 선과 비트 선의 교차점 메모리 배치하는 3D 바둑판 만들 수 있기 때문에 메모리 에 대한 개별 접근 가능해진다.


크로스 포인트 배열 구조는 도체가 수직으로 배치되어 1280억의 메모리 셀과 연결되는 3차원 고밀도 설계로 DRAM의 10배 집적도가 된다. 현재 메모리 셀이 2층 구조로 되어 있으며 대당 128Gbit의 데이터를 저장할 수있다. 향후에는 적층수를 늘려 용량을 더욱 향상시킨다고 한다.


트랜지스터가 불 필요한 것은 메모리 셀이 셀렉터에서 보낸 다양한 전압에서 읽기/쓰기를 할 수 있기 때문에 이에 의한 대용량화와 저비용화를 실현한다.


인텔은 올해 3D XPoint을 채용한 제품의 샘플 출하를 시작하며 그에 따라 고집적 등의 기계 학습과 패턴 분석, 유전자 분석 등 대용량 데이터의 고속 처리에 대한 기대뿐만 아니라 8K 게이밍 등 엔터테인먼트 분야에서의 응용 프로그램 창출을 촉진시킬 것이라 밝히고 있다.


cross_point_image_for_photo_capsule.jpg


3D_XPoint_Die.jpg

 


 

반응형
Posted by 랩터 인터내셔널

AMD 차세대 x86 CPU "젠(Zen)" ARM CPU "K12"를 양축으로 전개한다. Zen 현재 불도저(Bulldozer) CPU 코어 "Excavator(엑스카베이터)"보다 40%나 클럭당 실행 성능이 높아진다. GPU에는 차세대 광대역 메모리 기술 "HBM(High Bandwidth Memory)"을 타사보다 앞서 채용한다.

앞으로 몇 년간 이 회사 신 아키텍처와 신 기술 러시가 진행된다. 강력한 신규 CPU 코어 GPU 코어를 기둥으로 게임 가상 현실 의 몰입형 플랫폼, 그리고 데이터 센터와 같은 시장을 개척한다는 전략이다.

PlayStation 4(PS4)과 Xbox One에서 성공한 세미 커스텀 형 비즈니스도 확산하고 있는 것으로 밝혔다. AMD는 지난 몇 년간 전통적인 PC 플랫폼 이외 시장 개척에 힘을 쏟아 왔고 신규 CPU 코어에 의해서 그 전략이 점차 구체화 되고 있다.


AMD 미국 뉴욕 증권 거래소 나스닥(NASDAQ)에서 개최한 "2015 FINANCIAL ANALYST DAY"에서 동사의 기업 전략 전환과 제품 로드맵 쇄신을 발표했다. 첫머리에 등장 AMD Lisa Su(리사수)(President and Chief Executive Officer, AMD)는 동사 비즈니스 이행이 순조롭게 진행되고 있으며 전통적인 PC 비즈니스 엔터프라이즈, 배치, 세미 커스텀 매출이 2014년 40%에 이른 것 설명. 이들 시장 확대로 이후 동사 사업이 급속하게 상승세를 탈 것이라 밝혔다.


111.jpg


 

이 회사가 이번에 발표한 제품 로드맵은 이러한 기업 전략에 따르고 있다. 강력한 CPU코어 투입에 포커스하여 플랫폼을 단순화하고 확장 가능하게 한다. 그래서 내년(2016년)에는 새로운 CPU 코어 탑재한 CPU 제품을 하이엔드 FX 시리즈로 출시한다.


222.jpg


 

젠은 현재 Bulldozer(불도저)계 마이크로 아키텍처 CPU코어가 아니라 완전히 새로운 설계 코어다. 올해의 APU "카리조(Carrizo)"에 탑재되는 엑스카베이터 코어보다 클럭 명령 실행 성능 IPC(Instruction-per-Clock)가 40%나 높아진다고 한다. Bulldozer계는 스레드 정수 연산 파이프가 2개지만에서는 3개 이상으로 되는 것 확실할 것.


333.jpg


 

또, AMD CPU에서는 처음으로 SMT(Simultaneous Multithreading)를 지원 한다는 것을 AMD 기술 전략을 총괄하는 마크 페이퍼 마스터(Mark Papermaster) Senior Vice President and Chief Technology Officer에 의해서 밝혀졌다. SMT 인텔 Hyper-Threading으로 채용하고 있으나의 탑재에 대해서는 밝혀지지 않았다.  캐시 시스템을 갱신해 광대역이며 동시에 낮은 레이턴시 캐시 계층을 구현하는 것도 공표, FinFET 3D 트랜지스터 기술을 제조 공정 기술 사용함으로써 전력 효율이 크게 개선된다고 설명했다.


AMD 지난해(2014년) 5월 젠과 함께 고성능 ARM 코어 "K12" 개발하고 있는 것도 밝혔다. K12 2017년에 투입되며 서버 성능이 요구되는 임베디드 시장을 위한 제품이다.의 개발 노하우가 K12에도 활용 될 것으로 보인다. AMD 고성능 CPU 커스텀 회로 설계를 다용하는데 K12 그러한 설계가 될 것으로 예상된다.

GPU 광대역 메모리 기술 HBM(High Bandwidth Memory,SK 하이닉스)를 채용한 제품 올해 중반 발표되는 것도 확인됐다. HBM 다이(반도체 본체)를 적층 하는 스택 DRAM 기술로 500GB/sec 이상 메모리 대역 GDDR5 보다 훨씬 낮은 소비 전력으로 실현한다. 이 회사는 HBM 우선 GPU GDDR5 대체 그래픽 메모리로 채용한다고 한다.


444.jpg


 

GPU 코어는 내년(2016년)에는 현행 GCN(Graphics Core Next)을 개량한 GCN 3.0으로 이행, FinFET 3D 트랜지스터 프로세스 기술로 이행하고 전력 효율을 2배로 높이겠다고 밝혔다. 가상 현실에 대한 최적화도 하겠다고.


555.jpg


 

CPU 코어 GPU 코어 개량에 의해서 AMD 앞으로 APU(Accelerated Processing Unit) 전력 효율도 높인다. 2020년까지 현재보다 25배 전력 효율 향상을 목표로 한다. CPU GPU를 통합한 HSA(Heterogeneous System Architecture) 프로그래밍 모델도 확충한다. 머신 러닝 시장에도 포함할 것이라 AMD는 생각한다.


666.jpg


 

제품 로드맵에서는 지난해 5월 발표한 x86 ARM 호환 " 설계 프레임워크" "Project SkyBridge(스카이브릿지)"가 취소된 것으로 밝혀졌다. 이는 x86 ARM 플랫폼 호환 요구 자체가 낮다고 AMD 설명한다.

무엇보다 스카이브릿지의 본질은 소켓과 마더보드와 같은 차원뿐만 아니라 SoC(System on a Chip) 내부 호환 x86 ARM 아키텍처 SoC 설계 호환성을 높인다는 점이다. 이 점이 K12 세대로 지속될지는 밝혀지지 않았다.

스카이브릿지는 20nm 프로세스로 올해(2015년) 제조 될 예정이었다. 그러나 20nm는 IP를 설계해 봤지만 CPU에는 이점이 적은 것 밝혀지면서 AMD는 메인 스트림 제품에는 20nm를 채용하지 않기로 했다고 한다. 현재 제품 로드맵에서 28nm 평면 트랜지스터 프로세스에서 14/16nm FinFET 3D 트랜지스터 프로세스 점프할 계획이다.

스카이브릿지의 취소는 이 회사 설계 자원을 집중시키고 플랫폼을 심플화하며 제품 라인을 정리한다는 점에서는 효과가 높다. , 기업과 내장, 세미 커스텀에 맞춘다는 회사 전략에도 부합한다. 결과적으로 AMD 로드맵은 단단한 이다.


출처 - http://pc.watch.impress.co.jp/docs/column/kaigai/20150507_700728.html

 

반응형
Posted by 랩터 인터내셔널

000_588x.jpg


3월 10일에 개최된 애플의 미디어 행사 발표에서 딱 한달, "맥북(MacBook)"이 출하됐다. 실버, 그레이, 골드의 세가지 색상 중 어느 것을 택할지 고민하던 사람도 있겠지만 실용적으로 활용할 수 있는지의 여부를 우려하는 사람도 많지 않을까?

 

"MacBook"(스페이스 그레이)

 

이번에 라인업 중 하위 기종으로 1.1GHz 듀얼 코어 인텔 Core M 프로세서를 탑재한 스페이스 그레이 모델을 테스트할 수 있었으므로 그 퍼포먼스와 사용법을 소개한다.

 

 

스페이스 그레이 모델의 전면. 애플 마크는 빛나지 않는다 플랫 한 바닥

 

애플의 새로운 "MacBook" 패키지

패키지에는 본체색과 같은 애플 마크 스티커가 동봉


주요 스펙


제품명 맥북(MacBook)
CPU 인텔 Core M-5Y31(1.1GHz/터보 부스트시 최대 2.4GHz)
메모리
(최대)
8GB 1600MHz LPDDR3
디스플레이
(해상도)
12형 와이드(2304×1440, 16:10,226ppi)
그래픽 인텔 HD Graphics 5300
플래시 스토리지 256GB(PCIe 기준)
광학 드라이브 없음
LAN 무선 LAN (IEEE 802.11a/b/g/n/ac)
인터페이스 USB 3.1 Type-C 단자(전원 포트 겸용), Bluetooth 4.0
카드 슬롯 없음
사운드 내장 스테레오 스피커, 헤드폰 단자, 내장 듀얼 마이크
사이즈/중량 폭 280.5×두께 196.5×높이 3.5~13.1mm/920g
OS OS X 요세미티(Yosemite)



새로운 맥북(이하 MacBook)은 인텔이 2014년 9월 발표한 새로운 CPU 브랜드 "Core M"이 탑재돼 있다. 이는 개발 코드 네임 "Broadwell-Y"로 불렸던 것으로 TDP(열 설계 전력)이 4.5W로 매우 전력 효율이 좋은 것이 특징이다. 발열이 적어 PC 업체들이 Core M을 탑재한 팬리스 노트북이 개발되어 발매되고 있다. 이번에 등장한 새로운 MacBook도 팬리스다.

 

MacBook의 라인업은 이 CPU의 성능과 스토리지 용량의 차이에 따라 모두 3가지 선택으로 나뉜다. CPU는 하위에서 동작 주파수가 1.1GHz, 1.2GHz, 1.3GHz(단, 최상위 1.3GHz는 애플 스토어의 CTO에서만 선택 가능)에서 플래시 스토리지의 용량은 하위 모델만 256GB로 나머지는 512GB이다.


애플은 탑재 CPU를 세부적으로 밝히진 않았지만 이번에 테스트할 수 있는 1.1GHz 모델의 경우 후술 하는 벤치마크 결과에 의하면 "Intel Core M-5Y31" 이었다. 이는 기본 동작 주파수가 900MHz의 것으로 애플은 cTDP(소비 전력을 올리기)에 의한 정격보다 높은 작동 주파수로 동작하는 것 같음에도 불구하고 팬리스를 실현할 수 있는 것은 그만큼 MacBook 배열의 효율이 좋다는 것일까.

 

다만 cTDP는 처리 속도가 높아지는 반면 소비 전력도 오르기 때문에 배터리 구동 시간 등이 불리할 수가 있다. 3월 미디어 행사에서 애플은 MacBook의 바디 내에 턱을 만들어 빈틈없이 배터리를 좁혀 기존 기술에서 내장 가능한 용량보다 35% 큰 배터리 용량을 실현했다고 설명하고 있었지만 그것에는 이러한 이유가 있는 것 같다.


또한 하위 모델과 상위 모델은 CPU와 스토리지 이외는 공통 사양이 되어 있으며 모두 표준으로 8GB의 메모리를 탑재하고 있다. 그래픽은 CPU가 내장된 Intel HD Graphics 5300. 액정 디스플레이는 12형의 Retina 디스플레이로 해상도는 2304×1440 픽셀이다(스케일링 해상도는 1440×900,1280×800,1024×640).


 

 

신형 MacBook은 해상도가 2304×1440픽셀의 12형 레티나(Retina) 디스플레이를 탑재한다


인터페이스는 USB 3.1 Type-C 단자와 헤드폰 단자가 각각 1기. 또 USB 3.1 Type-C 단자는 전원 단자와 겸용이다. 이 밖에 표준적인 USB 단자와 영상 출력 단자 등은 탑재하지 않아 주변 기기를 사용하려면 별매의 어댑터가 필요하다. 꽤 대담한 사양이지만 애플은 iMac에서 플로피 디스크 드라이브를, MacBook Air에서 광학식 드라이브를 다른 업체에 앞서서 버린 바 있다. 이번에도 USB 3.1 Type-C의 보급에 상당히 자신을 갖고 있는 것이다.


 

본체 왼쪽 측면에는 USB 3.1 Type-C 단자만이 탑재되고 있다

 

본체 우측면에는 헤드폰 단자와 듀얼 마이크로폰이 탑재되고 있다


본체 크기는 최후부 13.1mm, 중량 920g으로 Mac사상 최박, 최경량이다. 몸통 중앙에서부터 끝까지 날씬해져가 디자인 때문인지 스펙보다 훨씬 얇아 보인다. 그러나 알루미늄 유니 바디 때문에 강성은 높아 일반적인 사용에서 휘어지는거나 틀어지지 않을 것이다.


 

최후부 13.1mm, 최박부 3.5mm로 매우 날씬한 본체이지만 강도는 높다

 

새로운 MacBook의 본체 전면

 

본체 배면. MacBook Air나 MacBook Pro와 달리 힌지부에 블랙이 없는 본체 색과 같은 색


cTDP에서 정격보다 높은 동작 주파수를 실현 한다지만 MacBook이 채택하고 있는 Core M은 저전력 중시의 CPU로 퍼포먼스는 충분한 것일까? 또 열에 의한 영향은 없는 것일까? 여기에서 여러 벤치 마크를 해보기로 했다. 우선"Geekbench 3"을 사용해 Mac 현행 기종의 CPU 성능을 체크해 보았더니 다음과 같았다.

 

Geekbench 3 벤치 마크 결과. 왼쪽이 32bit, 오른쪽이 64bit


Geekbench 3(32bit)에 의한 벤치 마크 결과
기종 CPU Single-Core Score Multi-Core Score
MacBook Core M(1.1GHz) 2228 4093
MacBook Air 13(Early 2015) Core i5(1.6GHz) 2663 5147
Mac mini(2014) Core i5(2.6GHz) 2937 6119
Geekbench 3(64bit)에 의한 벤치 마크 결과
기종 CPU Single-Core Score Multi-Core Score
MacBook Core M(1.1GHz) 2417 4601
MacBook Air 11(Early 2015) Core i5(1.6GHz) 2924 5804
Mac mini(2014) Core i5(2.6GHz) 3222 6877


이번에는 MacBook Air의 엔트리 모델이나 Mac mini의 중간 모델과 비교해 봤지만 예상 이상으로 건투 하는 것으로 나타났다. 그리고 MacBook의 스코어는 3세대 전의 MacBook Air(Mid 2012) 엔트리 모델에 맞먹는 수치.


다음 "CINEBENCH R15"을 실행해 보았더니 다음과 같았다.


 

 

"CINEBENCH R15"에 의한 벤치 마크 결과


CINEBENCH R15에 의한 벤치 마크 결과

기종 그래픽스 CPU OpenGL점수(fps) CPU스코어(cb)
MacBook Intel HD Graphics 5300 Core M(1.1GHz) 18.59 207
MacBook Air 13(Early 2015) Intel HD Graphics 6000 Core i5(1.6GHz) 27.18 258
Mac mini(2014) Intel Iris Graphics Core i5(2.6GHz) 25.99 273



역시, 그래픽 성능은 조금 차이가 벌어지고 있다. 그러나 MacBook의 18.59fps라는 OpenGL 점수는 1세대 전의 MacBook Air(Early 2014)과 동등한 결과. 결코 퍼포먼스가 나쁜 것이 아니다.

동영상 인코딩에서 고 부하시 발열을 확인

CPU와 그래픽에 대해서는 충분히 실용성을 갖춘 성능인 것으로 나타났으나 역시 궁금한 것이 고 부하시 발열이다. 애플의 공식 사이트에서는 MacBook의 CPU의 소비 전력은 5W라고 적혀 있다. 정격 4.5W 보다 조금 높지만 이는 어떤 영향을 미칠 것인가. 여기서 CPU의 각 스레드를 모두 구동하는 처리를 실행하고 발열의 영향을 점검키로 했다. 구체적으로는 동영상 변환 소프트웨어 HandBrake를 사용해 1시간 정도 연속 4K 동영상을 풀 HD와 720p의 해상도로 변환 해봤다.

 

 

CPU 사용율. 2코어 4스레드를 풀 가동한 상태에서 본체의 발열을 체크했다


그 결과 동영상 인코딩 중에는 MacBook의 이면(키보드의 힌지에 걸친 뒤쪽 부분)은 확실히 열이 있지만 체온보다는 조금 따뜻하다는 정도. 천을 통해서도 희미하게 따스함은 전해져 오지만 장시간 부하를 펼쳤을 경우에도 불쾌하게 느낄 정도는 아니었다. 수중에 있는 MacBook Air 11인치 모델(Mid 2012/Core i7/2.0GHz)과 비교해 봤으나 MacBook Air가 팬을 구동하기 전보다 MacBook은 분명하게 온도가 낮다.

 

MacBook에 1시간 정도 동영상을 인코딩할 때 동영상 변환 속도가 도중에 극단적으로 늦거나 하는 일도 없었다. 적어도 이번 테스트에서는 발열을 줄이기 위해 일시적으로 동작 클럭을 낮추는 일은 없는 것 같았다.

 

또 4K(3840×2160/24fps/4분 46초/2.14GB)의 동영상 소스를 720p(1280×720)로 변환 했을때의 시간은 MacBook이 15분 18초로 MacBook Air 11인치가 12분 14초였다. 비교한 MacBook Air는 2012년 CTO모델로 Core i7(2.0GHz)를 탑재한 것이지만 Geekbench의 스코어는 현행 MacBook Air와 거의 같다.


그것을 생각하면, MacBook은 상당히 분발하고 있다.


초박형 경량 MacBook은 외부에서도 사용할 기회가 많을 것으로 예상된다. 여기서 궁금한 것은 배터리 구동 시간이다. 애플 공식 사이트에서는 "최대 9시간의 무선 인터넷, 최대 10시간 iTunes 영화 재생" 이라고 되어 있지만 실제로는 어떨까?


여기서 조건을 바꾸면서 배터리 구동 시간을 체크 해봤다. 우선, 시스템 환경 설정의 "디스플레이"에서 "휘도"을 25% 정도로 설정. 그 상태에서 로컬로 저장한 1080p의 H.264/AAC 동영상을 전체 화면에서 반복 재생했는데 12시간 36분이 지난 곳에서 강제 슬립이 됐다.

 

다음 "밝기"을 100% 정도로 설정하고 YouTube의 풀 HD 동영상 콘텐츠를 연속 재생했는데 5시간 56분의 구동이 가능했다. 이렇게 높은 부하를 걸어 6시간 이어진다는 것은 상당히 좋은 성적이다. 참고로 밝기 100% 라는 것은 매우 밝고, 일반적으로는 좀 낮춰 사용하게 될 것 이므로 하루 정도는 전원 어댑터를 갖고 다니지 않아도 문제가 없을것 같다.

 

또 부속된 전원 어댑터는 MacBook Air 용 보다 머리 하나는 작은 전원 케이블을 분리하는 것도 가능하다. 매우 컴팩트하고 중량도 실측으로 108g 밖에 안된다. 여행이나 출장시 갖고 가더라도 짐이 안 되는 것이 기쁘다.

 

 

 

전원 어댑터와 USB 3.1 Type-C 코드. 코드는 전원 어댑터에서 탈착 할 수 있다 USB 3.1 Type-C 코드의 커넥터부는 iPhone 등이 채택하고 있는 Lightning 연결기보다 조금 큰 정도의 사이즈

 

MacBook의 전원 어댑터(왼쪽)과 MacBook Air의 전원 어댑터(오른쪽). 한 둘레 작지만 측면의 애플 마크가 없어졌다



최박부 3.5mm, 최후부에서 13.1mm의 신형 맥북(MacBook)은 그 얇음을 실현하기 위해 다양한 고안이 시행되고 있다. 그 하나가 키보드다. 종래의 구조부터 새로운 설계인 접영 구조로 바뀌어 키보드가 얇아 졌다.


키톱은 종전보다 면적이 커지고 있지만 키 스트로크는 매우 얕아지고 있어 처음 타이핑 할 때는 적잖이 위화감을 느낀다. 그러나 클릭감은 확실히 있고 키의 중앙 부근을 밀거나 끝을 눌러도 제대로 입력이 인식되기 때문에 입력 자체는 쉽고, 강한 힘으로 누를 것이 아니라 가볍게 누르면 부드럽게 입력할 수 있다고 생각한다.

 

 

 

MacBook의 키보드. 각 키의 면적이 MacBook Air등 보다 크고 키와 키 사이의 간격이 협소

 

키보드는 백 라이트를 내장하고 있다

 

키 스트로크는 얇지만 클릭감이 있다


개인적으로는 키감이 상당히 마음에 들었지만 키보드는 평가가 나뉘기 쉬운 부분이기도 하기에 사람에 따라서는 생소할지도 모른다. 구입을 검토하고 있다면 사전에 매장 등에서 사용해 보는 것을 추천한다.

감압 터치 트랙 패드

키보드와 마찬가지로 트랙 패드도 새로운 설계가 채용되고 있다. 기존에는 트랙 패드 전체가 단추로 되어 있고 아래로 내려가면서 밀어넣는 형태였지만 MacBook의 경우 압력 감지 기능과 촉각 피드백에 의해 유사하게 조회감을 재현하고 있다. 정말 아래 방향으로 누르는 느낌이 있어 처음 만졌을 때는 약간의 감동이 있었다. 매장에서 테스트 기회가 있으면 꼭 트랙 패드를 만져 보라.

 

 

트랙 패드는 리얼한 클릭감이 있다

USB 3.1 Type-C 단자

하나 더 당활 할 요소가 인터페이스다. 주변 기기와 접속에 사용하는 데이터 전송용 단자가 현 시점에서는 별로 보급되지 않은 USB 3.1 Type-C 하나로 그 자체로는 기존 USB 기기를 연결할 수 없다. 또 USB 3.1 Type-C 단자가 전원 커넥터를 겸하고 있기 때문에 충전 중에는 단자가 막혀 주변 기기를 사용할 수 없다.

 

 

USB 3.1 Type-C 단자


여기서 애플은 옵션으로 3종류의 어댑터를 준비하고 있다. 하나가 "USB-C-USB 장치"로 MacBook에 기존 USB 기기를 접속할 수 있다. 또 하나는 "USB-C VGA Multiport 장치"로 USB 기기와 충전 케이블, VGA 대응의 외장 디스플레이와 프로젝터를 연결할 수 있다. "USB-C Digital AV Multiport 장치"는 USB 기기와 충전 케이블, HDMI 대응의 외장 디스플레이 등에 접속이 가능하다.


 

옵션 "USB-C-USB 장치". MacBook에 기존 USB 기기를 접속 "USB-C VGA Multiport 장치". USB 기기와 충전 케이블, VGA 대응의 외장 디스플레이와 프로젝터를 연결할 수 있다

 

"USB-C Digital AV Multiport 장치". USB 기기와 충전 케이블, HDMI 대응의 외장 디스플레이 등에 접속이 가능하다


이번에는 이들 3종류의 어댑터도 테스트할 수 있어서 실제로 "USB-C Digital AV Multiport 장치"를 사용해 MacBook을 HDMI 디스플레이에 연결 해봤다. 그리고 충전하면서 외장 디스플레이와 USB접속의 HDD를 써 봤지만 별 문제 없이 안정되게 동작하고 있었다.

 

 

MacBook의 USB 3.1 Type-C 단자에 "USB-C Digital AV Multiport 장치"를 장착


또 MacBook의 내장 디스플레이와 외장 디스플레이를 미러링이 가능하여 메뉴바의 미러링 옵션에서 데스크탑 크기를 외장 디스플레이에 맞추거나 내장 디스플레이에 맞출지를 선택할 수 있다.

 

 

디스플레이 미러링은 데스크탑 크기를 외장 디스플레이나 MacBook 내장 디스플레이 하나로 설정할 수 있다


가령 풀 HD의 외장 디스플레이에 맞춘 경우는 MacBook의 내장 디스플레이도 덩달아 풀 HD로 된다. 스캘링으로 표시 자체는 예쁜 것이지만 역시 12인치 화면에서 풀 HD는 표시가 너무 섬세하고 작은 것이 있었다.

 

주변 기기를 사용할때 일일이 어댑터가 필요하게 되는 것은 귀찮지만 충전 케이블과 외장 디스플레이, 자주 사용하는 주변 기기를 어댑터가 있는 채로 두면 한 단계에서 MacBook에 이러한 기기를 접속할 수 있다. 집에서는 노트북을 외장 디스플레이에 연결하고 싶은 사람이라면 독립된 영상 출력 단자를 갖는 노트보다 MacBook& 어댑터가 오히려 쓰기 쉬울지도 모른다고 느꼈다.


새로운 MacBook의 구입을 검토했을때 큰 관문이 될 것 같은 것이 가격이다. 다만 각 제품의 구성을 살펴보면 꼭 비싼 것은 아니다. 예를 들어 MacBook Air 13인치는 메모리가 4GB 밖에 탑재되지 않고 액정 표시 장치도 Retina가 아니다. 13인치 MacBook Pro Retina 디스플레이의 엔트리 모델은 플래시 스토리지가 128GB다.

 

그것에 비해 MacBook은 하위 모델에서도 메모리가 8GB, 플래시 스토리지가 256GB 다. 그 스펙의 차이와 인터페이스 주변의 사양, CPU 성능을 어떻게 보느냐에 따라서 코스트 퍼포먼스의 평가는 엇갈릴 것이다. 용도, 예산, 필요성 등을 고려하면서 곰곰이 생각해 보기 바란다.


 

 

MacBook은 하위 모델에도 메모리가 8GB, 플래시 스토리지 용량이 256GB. 그 스펙의 차이와 인터페이스 사양, CPU 성능을 어떻게 보느냐에 따라서 코스트 퍼포먼스의 평가는 엇갈릴 것.


출처 - http://ascii.jp/elem/000/001/001/1001347/index-6.html

반응형
Posted by 랩터 인터내셔널
블루진(BlueGene)계열에 대한 언급 중 슈퍼 컴퓨터의 계보는 다시 ASC 계열로 돌아간다. 기념할 만한 연재 300회를 맞는 이번에는 ASCI Q의 치환 때문에 IBM이 개발한 로드러너(RoadRunner)다.

 

세계 최초로 1PFLOPS에 도달한 컴퓨터 "RoadRunner"

 

노드수도 동작 주파수도 한계, 후계기 마련에 다가선 한계 

어스 시뮬레이터와 BlueGene/L이라는 2제품의 성공은 ASC 계열을 생각하는데 큰 과제를 남겼다.

 

우선 첫번째는 노드 간 접속 레이턴시의 문제다. ASCI 계열만 보고 있으면 SMP(Symmetric Multiprocessing:대칭형 다중 프로세싱)+클러스터 방식이 안 된다고 생각하지만 어스 시뮬레이터도 초대 시스템은 640노드를 1단 크로스 바로 연결한 거대한 SMP+클러스터 구성이다.

 

그럼에도 불구하고 이 어스 시뮬레이터가 높은 성능을 발휘한 이유의 하나는 원래 프로세서가 벡터 방식으로 250MHz로 낮은 동작 주파수에서도 8GFLOPS의 성능을 얻고 있어 전체 성능을 벌어들였던 것이지만 다른 하나는 노드 간 접속이 아주 고속이었던 것이다.


이는 일단 크로스 바를 사용한 데 따른 것이지만 여기서 크로스 바를 쓴 것은 노드 수가 640개로 적은데 따른 것이다. 후기형 어스 시뮬레이터는 노드 수가 5120개로 늘어나면서 크로스 바를 포기하고 2단 구성의 크로스 바에서 Fat Tree를 구성한다는 ASCI Q를 방불케 하는 구성이다.

 

즉, 노드 수가 늘어나면 레이턴시가 늘어난다는 당연하다고 말할 수 있는 결과다.


또 다른 하나는 범용 프로세서의 한계다. BlueGene/L은 듀얼 FPU로 700MHz 구동으로 2.8GFLOPS를 실현했고 합계 360TFLOPS의 머신을 구축할 수 있었지만 이것으로 1PFLOPS가 가능한가 하면 3배의 노드수로는 노드 간 통신의 레이턴시가 어려운 일이다.

 

즉 midplane의 수가 128개에서 384개가 될 것인데 이를 프로그램에서 사용하기는 꽤 어려울 것이며 1개의 midplane의 노드 수를 늘리는가 하면 이번에는 midplane 내 레이턴시가 부쩍 늘어날 것이다.

 

여기서 동작 주파수를 3배로 높인다고 할 수 있지만 그 경우 소비 전력이 아마 10배를 넘어 Blue Gene/L의 높은 실장 밀도는 이룰 수 없다.


CRAY-2 수준으로 냉각액에 모두 담그는 정도의 방열 대책 마련이 필요하기 때문에 성능/소비 전력비가 엄청나게 떨어진다.

 

이러한 이야기는 2004년경부터 본격적으로 나오고 있는 것으로 1노드 당 성능을 올리는게 제일 편하다는 당연한 이야기가 됐다. 다만 동작 주파수는 이제 한계가 드러나고 있던 터라 이는 방법론으로서는 좋지 않다.


 

 

동작 주파수의 추이. 출처는 2007년 로스앨러모스 국립 연구소의 John A. Turner가 발표한 "Roadrunner:Heterogeneous Petascale Computing for Predictive Simulation" 이라는 논문. 원 데이터가 Tom's hardware guide. 이후로 작동 주파수는 계속 달리고 있지만 2015년 현재는 4GHz 근처에서 포화. 이를 넘어선 제품을 내는 것은 IBM 뿐이다


여기서 멀티 코어라고 말하면 이쪽은 반도체 제조 기술과의 약속이 되는 셈이지만 코어 수를 늘리면 코어 간의 동기가 문제가 되어 이쪽도 무진장으로 늘릴 수만 있는 것도 아니다. 거기서 Heterogeneous Architectures를 이용한다는 것이 ASC의 결론이었던 것 같다.

 

Heterogeneous(헤테로지니어스)로 활로를 찾는

당시는 또 Heterogeneous로 불릴 것은 3개밖에 없었다. 우선은 인텔이 연구 개발의 일환으로 발표한 80코어의 프로토 타입, 그리고 GPGPU로 이용할 수 있게 된 GPU, 다른 하나가 Cell이다.


 

인텔이 발표한 80코어의 개요. 이 80코어 CPU 1개에서 1.8TFLOPS이므로 555개를 나열하면 계산상은 1PFLOPS가 실현된다 GPU를 연산에 이용하는 이점.다만 2006년이라고 하면 아직 NVIDIA가 G80 코어(GeForce 8800 세대)에서 CUDA을 이용할 수 있게 된 직후인 당시로 성능도 미흡하고 배정밀도 부동 소수점은 다루지 않았다


우리는 알고 있듯이 Cell프로세서는 SCE의 PlayStation 3을 위해서 SCE-소니 IBM, 도시바가 공동으로 개발한 프로세서로 64bit의 PPE(PowerPC Processor Element)로 불리는 범용 프로세서에 SPE(Synergistic Processor Element)라 불리는 서브 프로세서×8을 조합한 것이다.


 

Heterogeneous의 신성 Cell 프로세서.


PPE 자체는 별로 성능이 높지 않고 주로 SPE 관리 등에 전념하는 형태로 연산 자체는 SPE이 주체로 하는 것이 일반적이었다.


이 SPE는 단정밀도 부동 소수점 연산이면 1개당 25.6GFLOPS에 이를 7개 이용함으로써 179.2GLOPS의 연산 성능을 발휘했다.

 

그리고 왜 7개인가는 8개의 SPE 중 1개는 무효화되고 있어(이는 수율 개선 때문)만일 8개로 유효하게 하면 204.8GFLOPS가 되는 계산이다.

 

추가로 만일 PPE도 풀로 연산을 시켰을 경우의 피크 성능은 230.4GFLOPS가 되는 계산이지만 여기까지 성능이 나오지는 못한 모양이다.



 

ASC Project가 선택한 것은 AMD 옵테론과 셀(Cell)


ASC Project는 최종적으로 이 Cell을 기반으로 한 Heterogeneous의 시스템을 구축하는 계약을 2006년 9월에 IBM과 맺었다. 계약은 3단계로 나뉘며 이하의 3단계로 시스템을 납품하게 됐다.


Phase 1: Opteron 프로세서를 이용한 Base System
Phase 2: Opteron에 Cell을 조합한 부분적인 실증 시스템
Phase 3: Opteron+Cell의 완전한 시스템

왜 IBM이 자신들의 Power/PowerPC, 인텔의 CPU를 사용하지 않고 AMD의 Opteron을 선택한 것인가 하면, 2006년 당시에 IBM은 POWER 5+인데 작동 주파수는 2.3GHz 정도로 절대적인 연산 성능은 높았으나 소비 전력도 컸다.


한편 인텔은 작동 주파수가 더 높은 Dempsey/Tulsa 세대를 이때 투입했으나 이는 Ceder Mill기반 코어로 작동 주파수는 몰라도 성능은 낮았다.

 

원래 Opteron 코어는 나중에 등장하는 Cell에 대해 데이터 분배를 하는 역할이어서 반드시 높은 성능은 불 필요하고, 오히려 I/O의 산출량 및 저전력이 요구되는 덕목이었다.

 

이점에서 Hyper Transport Link를 사용하고 I/O을 확장할 수 있는 Opteron 계열은 칩셋 경유로 I/O에서 인텔과 IBM 프로세서보다 오히려 뛰어나다는 판단을했다고 생각된다.

 

실제로 로스앨러모스 국립 연구소에 설치된 RoadRunner에 이용된 것은 1.8GHz 구동의 "Opteron 2210"이었다.

 

그런데 Phase 1에서 납품된 것은 LS21과 Expansion blade의 구성(아래 그림)이다. LS21은 얇은 블레이드 구성 2P 서버로 실제로는 그림보다 좀 더 복잡하다. Hyper Transport Tunnel로 사우스 브리지도 탑재, 이에 다양한 주변 회로나 기동용 SAS HDD 등도 이용이 가능하지만 일단 그림에서는 생략하고 있다.


얇은 블레이드 구성 2P 서버 "LS21". IBM BladeCenter LS21/LS41의 Installation and User's Guide에서 발췌


LS21과 Expansion blade의 구성


이에 조합하는 형태로 Expansion blade라고 불리는 것이 역시 같은 사이즈로 포개졌다. 이쪽의 내용은 2개의 Opteron 앞에 2개의 Hyper Transport Link x16을 커넥터 경유로 연결, 그 앞에 Broadcom의 "HT2100"이라는 Hyper Transport/PCI Express 브리지에 접속하고 있다.


"HT2100"는 원래 ServerWorks가 발매하고 있던 것으로 2001년에 Broadcom이 회사를 인수, 이 당시는 Broadcom의 제품으로 제공되고 있었다.

 

구조는 아래의 사진6 처럼 x16의 Hyper Transport Link에서 CPU와 접속하고 여기서 5ch, x24레인의 PCI Express Gen 1레인을 출력한다는 것이다.

 


Broadcom의 "HT-2100"의 카탈로그에서 발췌. 실제로 HT-2100 외에 HT-1100 사우스 브리지도 존재했지만 이는 RoadRunner에서는 사용되지 않았다



Expansion blade자신은 이를 3ch의 x8 레인이라는 구성으로 이중 2개는 이 다음에 나오는 QS22에 접속, 나머지 하나는 온보드 슬롯에 접속된다. 이 슬롯은 본래 2본분이 있는데 한쪽은 Infiniband 4x DDR 보드가 장착되어 외부의 직물에 접속되고 다른 쪽은 단순히 미사용.

 

여기서 Phase 2/3에서 어떤 구성으로 된 것인가?라는 것이 아래 그림이다. 위 절반은 Phase 1과 같지만 미사용이였던 4개의 PCI Express x8 레인의 끝에 4개의 PowerXCell 8i가 IBM 사우스 브리지 경유로 접속한다. 이 2개의 Opteron 프로세서와 4개의 "PowerXCell 8i"를 조합하는 것으로 한개의 노드를 구성했다.

 


Phase 2와 Phase 3 구성



 

배정밀도 부동 소수점 연산을 할 수 있는 Cell, 그것이 "PowerXCell 8i"


"PowerXCell 8i"는 65nm Cell의 배정밀도 부동 소수점 연산 확장판이다. 먼저 SPE는 1개당 25.6GFLOPS라는 수치를 기록하고 있지만 이는 단정밀도의 경우로 배정밀도는 1.8GFLOPS에 불과했다.


요컨대 단정밀도 부동 소수점 연산밖에 고려하지 않아 배정밀도라면 극단적으로 성능이 떨어진다. 이래서는 과학 기술 계산에는 사용할 수 없다. 거기서 배정밀도 부동 소수점 연산 능력을 강화한 것이 PowerXCell 8i.

 


"PowerXCell 8i"의 개요.  "PowerXCell와 선형 계산"에서 발췌. eDP와 X2D/DDR2 컨트롤러 때문에 전체의 코어 크기가 좀 더 넓어진

 통상 Cell의 차이점은 2가지다.


각 SPE에 새로 eDP(enhanced Double Precision)유닛을 추가하고 배정밀도 부동 소수점 연산에서 SPE 1개당 12.8GFLOPS의 연산이 가능토록 했다.메모리 컨트롤러의 X2D(XIO to DDR2)브리지를 추가하고 DDR2 메모리 컨트롤러를 탑재했다.

2번째는 원래 Cell은 아시다시피 XDR DRAM을 탑재한다. 이는 대역이 25.6GB/초로 고속 메모리 용량은(XDR DRAM에 한해서)256MB 밖에 없어 역시 이것은 과학 기술 계산에는 불 충분하다.

 

그렇다고 XDR DRAM 그대로 용량의 증가는 어렵다. 대용량의 XDR DRAM은 존재하지 않으며 XDR DRAM의 구성상 메모리 확장성이 한정됐기 때문이다.

 

거기서 XDR DRAM용 XIO라는 I/F에 DDR2와 프로토콜 변환을 하는 X2D는 브리지를 경유하여 DDR2 DIMM을 장착하도록 했다. 전송 성능이 다소 낮아지더라도 탑재할 수 있는 메모리 용량을 대폭 늘릴 수 있게 됐다(이론상 칩당 16GB).

 

이 PowerXCell 8i를 2개 탑재한 블레이드가 "QS22"로 불린다. IBM은 한개의 이용에 대비하고, PowerXCell 8i 근처에 풍부한 회로를 구현했지만 RoarRunner는 주변 회로는 거의 이용되지 않고 또 DIMM 용량도 PowerXCell 8i 1개당 4GB다.


"QS22"의 개요. 이쪽에서 직접 Infiniband HBA 및 GbE에서 접속이 가능한 구성이다


내부는 아래 사진처럼 되어 있다. RoadRunner는 3종류 4개의 블레이드를 만들어 1노드로 했다.



"QS22"의 사진. 중앙의 구리 히트 싱크 밑에 PowerXCell 8i가 위치한다. 이하의 출전은 "Roadrunner:Hardware and Software Overview"(IBM Redbook) 발췌 RoadRunner는 3종류 4개의 블레이드를 만들어 IBM은 이를 "TriBlade"라 밝혔다


노드 당 성능은 PowerXCell 8i의 SPE만을 사용한 경우 409.6GFLOPS, PPE도 참여시키면 435.2GFLOPS다. 또 Opteron에도 만일 계산을 시켰다면 이론상으로는 14.4GFLOPS 정도가 추가 되지만 역시 여기까지 쓰는 경우는 없었다.

 

PPE코어도 계산에 맞추면 SPE코어의 제어가 늦고 프로그래밍이 어려운 것도 있어 오직 SPE에서 계산하고, PPE는 SPE제어 Opteron은 데이터 입출력 등에 전념한 형태다.

 

일단 1개의 Opteron 코어로 1개의 PowerXCell 8i가 짝을 이루고 메모리도 코어 주변 4GB에 갖춘 것은 이 근처를 프로그래밍에서 쉽게 다룰 수 있도록 하겠다는 배려로 생각한다.

 

랙 하나에는 이 TriBlade가 12개 인입되고 이것이 1개로 4915.2GFLOPS로 약 5TFLOPS이므로 이것을 200개 늘어놓으면 1PFLOPS.

 


랙의 구조. 하얀 블레이드는 미사용 슬롯으로 보인다


실제로는 Compute Rack와 I/O+Compute Rack, 그리고 Switch&Service Rack 16개로 1개의 Connection Unit이라고 불리는 그룹을 형성했다.



Connection Unit 구성. I/O에는 IBM의 X3655가 이용됐다. 이는 Opteron 2218을 듀얼로 탑재하는 블레이드에서 RAIO 컨트롤 등도 탑재한다


1개의 Connection Unit에는 180개의 TriBlade(=노드)가 장비된 것으로 Connection Unit당 73.7TFLOPS 정도가 된다.

 

이 1개의 클러스터 인당 1개 288포트 Infiniband Switch가 탑재되면서 Connection Unit 내의 노드는 1hop으로 다른 노드와 연결된다. 참고로 288포트 중 180포트는 직접 각 노드에 12개는 I/O 노드에 연결되고 나머지 96포트가 상위 스위치에 연결된다.

 


이는 Roadrunner Technical Manager의 Ken Koch씨의 논문 "Sweep3D(Sn transport)&other key Roadrunner applications"에서 발췌. 노드 수가 많은 것은 I/O 노드도 포함하고 있기 때문.(180 TriBlade+12 I/O)×18=3456


Infiniband 자체는 x4 DDR이므로, 신호 속도 자체는 20Gbps인데 Embedded Clock을 사용하기 위한 실질적인 데이터 전송 속도는 16Gbps이다.

 

Connection Unit은 모두 18개로 이 Connection Unit들은 8대의 Infiniband Switch에서 상호 접속되지만 각각의 Connection Unit과 Switch 사이는 12링크로 연결되는 Fat Tree로 구성되어 있다. 피크 성능 1.3PFLOPS를 넘는 시스템이 이것으로 완성된 형태다.

 

 

실효 성능으로 1PFLOPS을 넘겨

시스템은 2008년 5월 뉴욕에 있는 IBM의 공장에서 풀 시스템으로 생산되고, 그 후 뉴 멕시코 로스앨러모스 국립 연구소에 여름 쯤에 납품됐다. 이 공장에서 생산된 시점에서 실효 성능으로 1PFLOPS을 넘겨 2008년 6월 TOP500에서 BlueGene/L를 넘어서고 No.1를 차지했다.

 

로스앨러모스 국립 연구소에 납품 후에는 약간의 성능 개선을 달성해 2009년 6월까지 TOP500에서 1위 자리를 지켰다.

 

그 후로는 다소 구성을 바꾼 상태로 운용된 것 같지만 2012년 11월 시점에서도 아직까지 22위에 랭크되어 있는 것은 절대 성능이 꽤 강력한 머신이었던 것은 틀림 없다.

 

효율은 이론 성능의 1375.8TFLOPS에서 실효 성능 1042.0TFLOPS로 76%에 가까운 것으로 나쁘지 않다. 1042TFLOPS에서 소비 전력은 2345KW로 성능/소비 전력비는 444.3KFLOPS/W로 이쪽도 뛰어나게 좋은 숫자였다.

 

하지만 이후 등장한 HPC 머신은 더 좋은 성능/소비 전력비를 실현했기 때문에 로드러너(RoadRunner)의 소비 전력은 과거로 여겨졌다.

 

실제로 2012년 11월 TOP500을 보면 RoadRunner에 이어23위의 머신인 에든버러 대학에 놓인 BlueGene/Q 베이스의 DiRAC는 1035.3TFLOPS를 불과 493KW로 실현하고 있다. 결국 이 소비 전력이 걸림돌이 되어 2013년 3월말에 RoadRunner의 가동은 종료됐다.

 

참고로 IBM은 이 PowerXCell 8i를 확장한 원칩으로 TFLOPS를 실현할 수 있는 CPU를 계속 개발하고 있었다. 구체적으로는 PPE× 2+SPE× 32의 "PowerXCell 32ii", 그리고 PPE× 4+SPE× 32의 "PowerXCell 32iv"로, 최종적으로 이들 프로세서는 세상에 나가지 못하고 사라졌다.

 


출처 - http://ascii.jp

반응형
Posted by 랩터 인터내셔널

이번에는 QCDOC를 바탕으로 만들어진 블루진(Blue Gene)계열의 이야기다.


Blue Gene/L


전회도 조금 언급했으나 원래 IBM은 1999년에 Protein Folding(단백질 구조 해석)을 목적으로한 1억달러 규모의 연구 개발 프로젝트를 시작한다.


이 프로젝트는 Protein Folding의 메커니즘을 대규모 시뮬레이션으로 규명하는 것이 목적이지만 이와 함께 Massively Parallel(초병렬) 하드웨어와 소프트웨어를 구축할 목적이었다.

 

Protein Folding의 시뮬레이션을 위해서는 1PFLIOS규모의 머신이 필요하다는 것으로 프로젝트의 최종 목표는 1PFLOPS의 머신을 구축하는데 있었다.


1999년이라고 하면 ASCI Blue Pacific/Blue Mountain이 운용을 시작한 해로 ASCI Blue Mountain이 실효 1.6TFLOPS, Blue Pacific에서도 실효 2.1TFLOPS라는 근방으로 1PFLOPS라고 하면 이것보다 500~600배의 성능을 내야 하기 때문에 이를 일약에 실현하는 것은 도저히 무리다. 여기서 당초 300TFLOPS규모의 머신(Blue Gene/L)을 실현하는 것을 목표로 하였다.

 

 

저비용으로 고성능을 요구한 Blue Gene/L

그런데 그 최초의 Blue Gene/L의 설계 목표는 높은 성능/비용대비를 실현하는 것에 성능/소비 전력비나 성능/부피비를 향상시키는 것도 목표에 내걸렸다. 최초의 두 가지는 이해하기가 쉽지만 마지막 성능/부피비는 별로 익숙하지 않을 것이다.


이는 ASCI 시스템이 모두 10000평방 피트를 넘는 방대한 설치 면적을 필요로 했다는 것에 대한 반성이다. 전회 소개한 QCDOC가 100평방 피트 정도로 유지되고 있는 것은 시스템의 운용 비용이라는 점에서도 메리트는 크다.

 

그리고 설치 면적이 크면 노드 간을 둘러싼 배선의 거리도 길어진다는 점에서 이는 그대로 레이턴시와 소비 전력의 증대로 이어진다. 그러므로 가급적 배선 거리는 짧게 하고 싶고, 그러려면 필연적으로 설치 면적을 제한하는 방안이 필요하다.

 

Blue Gene/L은 이런 점을 감안하고 기존의 슈퍼 컴퓨터를 크게 웃도는 성능/소비 전력비를 목표로 하는 것을 목표로 내걸었다.


 

 

Blue Gene/L의 목표. 이 도표에만 2002년에 있는 "QCDSP Columbia/IBM"은 QCDOC의 잘못이다. 또한 이번 도표의 출전은 모두 IBM Journal of Research and Development의 Volume 49, Number 2/3, 2005이다


이를 실현하기 위하여 QCDSP/QCDOC의 생각을 발전시키게 되었다. 성능 목표는 360TFLOPS에 이를 20MW정도의 소비 전력으로 충당한다는 것이다.

 

PowerPC 440코어와 소용량 캐시를 채용

이 목표를 어떻게 실현할 것인지에 대한 기본은 QCDOC와 마찬가지로 PowerPC 440코어를 이용하고 있다. 이에 독자적인 Double-hummer FPU을 조합한 것이 1코어다.

 

칩 자체는 이 코어를 2개에 2차 캐시 ×2, 이어 eDRAM을 사용한 4MB의 3차 캐시, 추가로 외부 접속용 네트워크와 DRAM 컨트롤러 등을 통합하고 있다.


 

 

Blue Gene/L의 칩 구조. Multiport Shared SRAM은 용량이 16KB지만 이것은 캐시용이 아니라 프로세서간 통신용 Scratch Pad


이로써 DRAM을 제외하면 사실상 1칩으로 2개의 계산 노드를 통합할 수 있다. 제조 공정이 8SF(130nm)가 이용되고 있지만 작동 주파수는 700MHz로 소극적으로 되어 있다. 이것은 CPU 코어의 소비 전력 타깃이 1W이며 이에 맞추어 조정한 형태다.

 

2차 캐시의 구조도 재미있다. 위의 사진으로 L2 prefetch buffer라고 쓰여 있는 것은 용량이 2KB 밖에 없어서 32KB의 1차 캐시와 비교해도 꽤 적다. 당연히 Inclusive 구조에는 못미치고 Exclusive한 구조를 하고 있다.

 

왜 이런 소용량의 캐시를 추가했냐고 하면 Cache Snooping때문이다. PowerPC 440 자체는 싱글 코어 CPU인 것으로 멀티 프로세서의 대응이 들어 있지 않다.


구체적으로는 Cache Snoop의 기능을 갖고 있지 않아서 외부에 공유 캐시를 일체 갖지 못하게 된다. 이를 커버하기 위해서 Cache Snoop의 기능을 2차 캐시에 넣었다.

 

어디까지나 Snooping을 목적으로 하고 있으니 용량은 적어도 좋고 이 때문에서인지 L2 Cache가 아니라 L2 Prefetch Buffer로 칭한다.

 

용량 자체는 embedded DRAM을 이용하고 4MB 자체 대용량을 L3 온 칩으로 탑재했으며 게다가 이것은 충분히 고속이다.

 

Double-hummer FPU는 700MHz에서 2.8GFLOPS의 연산 성능을 갖지만 Double의 경우에는 이것을 최대한 사용하는 경우에는 이하의 처리가 발생하게 된다.

 

  • 데이터를 5.6GB/초 ×2에서 읽기
  • 연산 결과를 5.6GB/초에 시작

위의 사진을 보면 알 수 있듯이 CPU 코어와 2차/3차 캐시를 잇는 버스는 이 대역에 맞게 설계된다. 요컨대 이는 병목이 되지 않도록 설계되어 있는 셈이다. 무엇보다 대역 레이턴시는 다음과 같은 숫자로 되어 있으며 2차/3차 캐시는 나름대로 레이턴시가 크다.


캐시와 레이턴시의 관계
1차 캐시 3사이클
2차 캐시 11사이클
스크래치 패드 15사이클
3차 캐시 28/36/40사이클
DRAM 86사이클


오히려 DRAM이 이상하게 고속이라고 해야 할지 모르지만 이는 3차 캐시를 경유했을 때의 숫자로 3차 캐시를 경유하지 않으면 좀 더 늘어날 것으로 생각된다.


 

병렬 연산을 위한 2개의 FPU와 1GB의 DDR SDRAM으로 1장의 카드를 구성


다음은 FPU다. Blue Gene/L에서는 FPU를 2개 탑재하고 있지만 이는 QCDOC의 FPU가 2개 나란히 있다기 보다는 QCDOC의 FPU 폭을 2배로 늘린 형태다.

 

내부는 프라이머리와 세컨더리 2계통으로 나뉘어 있는데 양쪽의 FPU에서 동일한 명령을 실행한다. 말하자면 FPU를 SIMD식으로 확장한 설계다.

 


FPU 구조. 레지스터 파일 자체는 Primary와 Secondary로 분리하고 있지만 각각의 연산 유닛은 양쪽의 레지스터 파일에서 데이터를 읽을 수 있게 되어 있다


다만 여러 SIMD가 예컨대 16Bytes 폭은 단정밀도 연산 ×4 혹은 배정밀도 연산 ×2를 동시에 실행할 수 있는 반면 Double-hummer FPU는 단정밀도와 배정밀도 1사이클당 2개의 연산 명령을 실행할 수 밖에 없는 것이 큰 차이다.

 

명령 중에는 MAC 연산(곱셈+가산)도 포함됐으며 이를 실행하는 경우는 1사이클에서 4연산이며 700MHz면 2.8GFLOPS다. 참고로 이 Double-hummer FPU 자체는 800MHz에서 동작을 타깃으로 설계됐다고 한다.

 


FPU의 평면도. 타이밍을 맞추느라 일부는 ASCI 게이트를 사용하지 않고 수배선에서 최적화를 시행한 것


이 Blue Gene/L은 1장의 카드에 칩 2개와 DDR SDRAM이 모두 탑재된다. 메모리는 노드, 즉 Blue Gene/L의 칩 1개당 512MB으로 알려졌다.


Blue Gene의 Compute Card.DDR SDRAM이 DIMM 슬롯을 사용하지 않고 직접 기판에 장착된 것은 슬롯을 사용함으로써 기계적인 고장이 발생하는 것을 피하기 위해서다. 유연성은 없어지지만 이는 하나의 생각이다


카드 1장당 소비 전력은 15W로 여겨지지만 Blue Gene/L의 칩 자체가 1개당 5~6W정도(코어 1W로 합계 2W, 그 외 4MB의 eDRAM과 후술 하는 I/O 연결용으로 나름 필요), DDR SDRAM이 1GB 분량으로 역시 3~4W.

 

이 카드를 Compute Card로 칭한다(다른 I/O전용 I/O Card도 존재). 이 Compute Card를 16장 장착한 것이 Node Card.

 


Compute Card를 16장 장착한 Node Card.16장의 Compute Card 외에 최대 2장의 I/O Card를 장착할 수 있지만 이 사진에는 장착되지 않은 것 같다


캐비닛에는 이 Node Card를 16장 장착한다. 이 단계에서 노드 수는 1024(코어 개수는 2048), 메모리는 512GB에 이른다. 연산 성능은 1캐비넷에서 5.6TFLOPS에 이르는 셈으로, 이론 성능만 하면 ASCI Blue Pacific의 1.5배의 성능이 불과 1캐비넷에 들어간 것이다.

 

무엇보다 1개의 Compute Card가 15W에 들어간다고 해도 이를 1000장 모으면 15KW가 되는 것으로 냉각 방법에는 노력이 필요하다. 칩 1개당 발열은 5~6W로 패시브의 히트 싱크만으로 충분히 감당하지만 이에 대해 나름대로 냉각풍을 맞출 필요가 있다.

 

거기에서 캐비닛 측면에는 60개의 냉각 팬을 설치하여 섀시를 비스듬히하여 냉각 효과를 높이는 노력이 이루어졌다.

 


Blue Gene/L의 캐비닛. 이 사진에는 오른쪽 절반 측면에 냉각 팬이 덮는다 냉각팬 배열. 3개 단위로 쉽게 교환할 수 있는 구조지만 개인적으로는 좀 더 큰 팬을 사용해도 괜찮을 듯


아래의 사진에는 설명이 필요할 것이다. 위의 사진에서 나타낸 캐비닛은 아래 사진의 파란 부분에 담긴다. 그 좌우로 기울어진 급배기 지역이 붙는 형태다.


Blue Gene/L의 섀시. 이것도 실물 모형 같은 것으로 실제로는 이 캐비닛의 배기부와 왼쪽 캐비닛의 흡입부가 겹쳐지도록 배치되어 캐비닛 간의 간격은 더 막히고 있다


이 경우 캐비닛에는 오른쪽에서 흡기(바닥에서 냉기를 공급하고 캐비닛 안에서 가열된 에어는 왼쪽으로 흘러)되어 그대로 나가는 셈이 된다.

 

이 사선 판자의 각도는 10.1도 정도 되는데 시뮬레이션에 의하면 각도가 0, 즉 비스듬히 판자가 없는 상태에서 캐비닛 내 온도는 최소 38.2℃(가장 높은 곳에서는 50℃ 이상)이던 것이 비스듬히 판자를 넣은 것으로 최저 27.0도까지 내려가게 되었다고 한다.

 


위가 기존의 방열 기구, 아래가 Blue Gene/L의 것


이른바 대류를 잘 이용하여 냉각을 하고 있는데 이 결과 Blue Gene/L의 케이스는 밖에서 보면 기울어 있다.


Blue Gene/L의 외관. 이는 디자인 컨셉의 CG, 실제로 설치된 사진이 아니다



 

네트워크는 3가지로 구성 노드간 통신은 3차원 원환 구조


자, 다음으로 네트워크 이야기를 하고 싶다. Blue Gene/L은 이 캐비닛을 64개 나열하고 이론 성능에서 367TFLOPS를 실현하고 있는데 노드 수는 65536에 이르러 적절한 네트워크로 접속하지 않으면 성능이 나오지 않는다.


거기서 Blue Gene/L에는 여러 종류의 네트워크가 조합되어 있다. 노드간 통신의 기본은 3차원 원환 구조이다. 이는 아래의 사진(a)처럼 각각의 노드를 3차원 구조로 접속하는 것으로 Blue Gene/L에서는 8×8×8이 기본이다.

 


Blue Gene/L의 네트워크. 3종류의 네트워크가 존재


노드 수에서 말하면 512로 딱 캐비닛의 절반에 해당한다. 또한 BlueGene/L에서는 이를 midplane이라고 말하고 있다. 첫번째 페이지에서 나타낸 Blue Gene/L의 칩 구조 사진에서 "Torus"라고 적힌 유닛이 이 3차원 원환 구조용 링크로 송수신 각각 1.4Gbps로 접속된다.

 

Blue Gene/L 전체에서는 이 midplane이 128개 존재하지만 Blue Gene/L은 이 midplane을 1개의 Partition으로 취급하고, 복수의 midplane을 이용하는 경우에는 프로그램 측에서 이를 처리한다(즉 midplane자체를 확장하지 않는다)라는 형태로 제약을 마련하고 있다.

 

이는 복수의 섀시에 걸쳐서 동기를 취하거나 하면 거기가 병목이 될 것이므로 어디까지나 1개의 처리는 1개의 midplane에서 이루는 것이며 여러 midplane를 사용할 경우에는 처리 자체를 각각 분할하려는 방식을 취했다.


midplane끼리는 Link Chip으로 불리는 전용 ASIC을 경유하여 케이블로 접속된다. Link Chip의 제조 프로세스는 130nm의 "Cu-11"를 이용해서 제조되고 있으며 4종류의 동작 모드를 갖는다.

 


Link Chip의 구조. 이는 파티셔닝 때 일일이 배선을 연결해 바꾸지 않더라도 동작 모드를 변경함으로써 자신을 그 파티션에 더하거나 빼거나 하는 것. 덧붙여 그림에서는 Port E가 사용되지 않게 되어 뭔가 이상했다


Regular와 Split라는 2종류의 케이블은 midplane간을 잇는 것이지만 통상의 가로 세로 하락 방향의 배선이 Regular, 그 규칙에서 벗어난 것이 Split이다.

 

이 Link Chip들 또한 3차원 토러스를 구성하는 형태로 되어 있는데 예를 들면 아래의 사진처럼 1~8 사용자가 있어 각각 따로 파티션을 사용하고 싶은 경우 6~8 사용자는 가로 방향에 전체를 물리적으로 잡아 버리면 파티션을 구분할 수 없어 6/7/8의 경계만 가로 방향은 Split케이블을 이용하여 분리하게 된다.

 


이는 Blue Gene/L 시스템을 위에서 바라본 그림. 사각은 각각 섀시라고 생각하자


참고로 이 3차원 원환은 1노드 당 평균 100나노초의 레이턴시가 필요하다. 그래서 65536개의 모든 노드에 데이터를 송신할 경우 대체로 6.4마이크로초 정도 필요하다.


그런데 이야기를 3종류의 네트워크로 되돌리면 이와 별도로 Collective Network라 불리는 것(b)의 형태)가 있다.

 


Blue Gene/L 네트워크


이곳은 전 노드에 브로드캐스트를 할 경우 등에 사용하는 것으로 대역은 2.8Gbps, 레이턴시는 5마이크로초 미만으로 된다. 이것이 첫번째 페이지에서 나타낸 칩 구조의 사진에 있는 Collective라는 유닛을 이용한다.

 

또 Barrier Network라 불리는 것도 별도로 마련되어 있다. 이것은 시스템의 동기를 취하기(각 노드가 즉시 동작을 중지) 위한 것으로 노드 수가 65536이라도 1.5마이크로초 미만에서 동기를 할 수 있도록 설계되고 있다.

 

이상의 3개가 애플리케이션 사용의 네트워크인데 외에 GbE, 그리고 디버깅용 JTAG가 별도로 네트워크로 준비되어 있다. 위의 사진(c)이 그것이다.

 

 

복수의 시설에 납입해 상업적으로도 성공을 거두었다

이런 연구에 의해서 Blue Gene/L은 높은 성능을 발휘했다. Blue Gene/L 최초의 시스템은 로렌스 리바모아 국립 연구소에 납품됐지만 우선 4캐비닛(8192코어)가 가동된 단계에서 11.68TFLOPS를 발휘하고 TOP500의 4위를 차지, 16캐비닛(즉 정격의 4분의 1)가 가동된 2004년 11월에는 70.72TFLOPS를 발휘하여 TOP500의 1위 어스 시뮬레이터를 넘어선다.

 

절반이 가동된 2005년 6월은 실효 성능 136.8TFLOPS, 풀 가동했던 2005년 11월은 실효 성능 280.6TFLOPS를 발휘, 이후 2007년 11월까지 1위 자리를 계속 유지했다.


추가로 이 풀스펙 구성에서 이론 성능 367TFLOPS은 280.6TFLOPS이므로 효율은 76.5%로 그렇게 나쁘지 않고 성능/소비 전력부터보면 280.6TFLOPS를 1433KW에서 실현되고 있는 것이며 191.5KFLOPS/W라는 계산으로 QCDOC과 비교해도 3.8배 정도 성능/소비 전력 비율이 개선되고 있다.


이후 로렌스 리바모아 국립 연구소는 섀시를 104개까지 증강하고 피크 성능을 596TFLOPS까지 올리며 보다 작은 시스템이 각처에 납품되고 있다.

 

예를 들면 2006년 11월 TOP500 리스트를 보면 로렌스 리바모아 국립 연구소 이외에 100위 이내만 14개 시스템이 납품되고 있다.

 


 

TOP500에서 100위 이내에 랭킹에 오른 Blue Gene/L
순위 코어 개수 내용
3 40,960 IBM Thomas J. Watson Research Center
17 12,288 ASTRON/University Groningen, Netherlands
21 8,192 Computational Biology Research Center, AIST
22 8,192 Ecole Polytechnique Federale de Lausanne, Switzerland
23 8,192 High Energy Accelerator Research Organization /KEK
24 8,192 High Energy Accelerator Research Organization /KEK
25 8,192 IBM Rochester, On Demand Deep Computing Center
42 6,144 UCSD/San Diego Supercomputer Center
61 4,096 EDF R&D, France
61 4,096 EDF R&D, France
62 4,096 Harvard University
63 4,096 High Energy Accelerator Research Organization /KEK
64 4,096 IBM Almaden Research Center
65 4,096 IBM Research, Switzerland
66 4,096 IBM Thomas J. Watson Research Center


안에는 KEK처럼 3시스템(MOMO/Sakura/Ume)을 운용한 곳도 있어 상업적으로도 성공한 부류로 취급해야 할 것이다.


이 Blue Gene/L의 성공으로 다음에 Blue Gene/P 개발이 시작되고 이에 영향을 받아 Blue Gene/C, Cyclops64의 개발도 2004년에 시작됐지만 이는 다른 기회에 설명한다.

 


출처 - http://ascii.jp

반응형
Posted by 랩터 인터내셔널

ASC Red Storm과 거의 같은 타이밍에 ASC(Advanced Simulation and Computing Program:선진 시뮬레이션 및 컴퓨팅 계획)의 100TFLOPS를 위한 계획도 시작된다. 이는 ASCI White의 후계 시스템에 해당한다. ASCI White가 10TFLOPS이므로 단순히 봐도 10배 성능의 시스템이다.

 

ASC Purple 시스템. 사진은 로렌스 리바모아 국립 연구소의 Tom Spelce의 논문에서 발췌


2002년 11월 19일 미국 에너지성과 IBM은 총 2억 9000만달러의 계약을 맺는다. 다만 이는 ASC Purple 뿐만 아니라 Blue Gene/L도 포함한 것이었다. ASC Purple이 100TFLOPS, Blue Gene/L이 300TFLOPS 이상이라는 이론 연산 성능으로 금액이 커져 단가당 연산 성능으로 말하면 기존의 ASCI/ASC 시스템을 훨씬 넘어선다.

 

ASC Purple의 부대 설비만 2억 3000만달러나 되는데(부대 설비 가격은 총액 2억 9000만달러로 계약금에 포함되지 않는다) ASC Purple만으로는 가격 대비 가치감은 떨어지고, 반대로 Blue Gene/L의 알뜰 구매 심리가 높은 것인데 이 중 Blue Gene/L은 다시 한번 설명하며 이번에는 ASC Purple에 대해서 설명한다.


ASC Purple은 초기 ASCI 계획의 총 정리, SMP(Symmetric Multiprocessing:대칭형 다중 프로세싱)+클러스터 구성을 취한 최후의 시스템이다. 그냥 이렇게 쓰면 약간 어폐가 있으므로 좀 더 자세하게 설명한다.

 

초기 ASCI 계획이라는 것은 1996년경에 책정된 이 로드맵에서 2002년경에 투입될 예정이었던 100TFLOPS를 실현한다는 의미다.



 

1996년경에 책정된 ASCI 로드맵. 2002년경 100TFLOPS를 실현할 계획이다


물론 계획 자체는 이전 연재 286회에서 설명한 대로 ASCI에서 ASC로 바뀌고, 지금은 1PFLOPS를 목표로 하고 계속 계산 능력의 증강을 위한 개발이 진행되고 있지만 100TFLOPS가 하나의 이정표인 것은 틀림없고 그 의미에서는 기념해야 할 위치에 있다.

 

마지막 SMP+클러스터지만 이 뒤에도 ASC는 계속 SMP+클러스터를 쓰고 있다. 다만 그 위상은 좀 다르다. 2021년경까지 ASC 로드맵에 따르면 ATS(Advanced Technology System)는 이 ASC Purple이 사실상 최후 SMP+클러스터 구성이며 이어지는 시스템은 기본 MPP(Massively Parallel Processing:초병렬) 베이스다.



 

2021년경까지 로드맵. ATS용 ASC Purple이 마지막 SMP+클러스터 구성이다


그런데 CTS(Commodity Technology Systems)는 Linux 기반의 머신을 클러스터 구성으로 잡은 것이 이후로도 계속 사용되고 있다. 다만 이쪽은 "Commodity"라는 이름과 같이 기존의 저렴한 시스템을 대량으로 나란히 한다는 것으로 피크 성능을 겨냥한 구성이 아니다.

 

지난번 Capability Computing의 얘기를 했지만 ASC로 말하면 ATS 시스템이 이 Capability Computing을 추구하는 라인업이며 한편으로는 CTS는 이와 짝을 이루는 Capacity Computing(계산 용량에 의한 컴퓨팅)을 목표로 한 시스템이다. 그러므로 ASC Purple는 정확히 말하면 Capability Computing을 겨냥한 마지막 SMP+클러스터 구성 머신이 된다.

 

그 ASC Purple은 2002년에는 POWER5 프로세서가 12554개 집적된 SMP+클러스터 구성으로 그 의미에서는 ASC White의 스케일 확장판이라고 생각하도 문제가 없을 것이다. 우선 그 POWER5 프로세서에 대해서 설명한다.


POWER3 까지 개발 경위는 연재 290회까지 거론했기에 POWER4부터 이야기를 시작하고 싶다.


POWER4 프로세서는 1999년 10월 MicroProcessor Forum에서 처음 발표된다. 다만 이때는 내부 구조 자체는 발표되지 않고 1GHz 이상이 가능하다고만 소개됐을 뿐이다.

 

오히려 특징은 2개의 CPU코어와 공유 2차 캐시 및 3차 캐시, 그리고 프로세서 간 커넥트를 1칩화한 것이다.

 


1999년 10월에 개최된 MicroProcessor Forum에서 IBM의 설계 주임 Jim Kahle에 의한 POWER4 발표 슬라이드. 이 발표의 취지는 프로세서 성능은 명령어 집합식이 아니라 얼마나 메모리 대역을 확보하느냐에 달렸다는 것이었다


이 칩을 4개 내놓고 MCM(Multi-Chip Module)화된 8P프로세서도 구성할 수 있다는 것이 밝혀졌다. 그리고 다이 구역은 오른쪽 아래 사진처럼, 코어의 절반을 2차 캐시가 선점한다.


8P프로세서 구성. 프로세서 간의 링크 속도는 CPU 동작 주파수의 절반으로 예를 들면 1GHz구동이라면 500MHz다. 버스 폭은 쌍방향 32bit POWER4의 2차 캐시는 최대 1.5MB, 3차 캐시는 최대 32MB까지 지원


내부 구조는 2001년에 발표된 것이지만 정수 연산과 부동 소수점 연산을 각각 동시에 2명령으로 실행 가능한 슈퍼 스칼라 라는 구조, 그리고 Out of Order의 구현 그 자체는 POWER3을 따르고 있다.


다만 파이프 라인은 정수 연산에서 12~14단, FPU는 17단으로써 0.22μm 프로세스에서도 450MHz가 종점이었다. POWER3-II에 POWER4는 0.18μm 프로세스에서 1.1GHz 구동, 0.13μm으로 미세화한 POWER4+에서는 1.9GHz 구동이 가능하게 되어 있다.

 


POWER4의 파이프 라인. 이 슬라이드는 2003년 POWER5 발표때의 것이지만 2001년 MicroProcessor Forum에서 발표된 슬라이드를 재게한 것


이 POWER4를 다중 스레드로 확장한 것이 POWER5로 메모리 컨트롤러도 내장됐다. 2차 캐시 용량도 1.875MB까지 증량되어 3차 캐시는 36MB로 확장됐다.


POWER4의 파이프라인과 비교했을때 색깔이 있는 부분이 멀티 쓰레드로 확장된 부분. 파이프 라인 그 자체에는 큰 변경은 없다 POWER4의 다이어그램과 비교하면 기본적인 골격은 변하지 않았지만 L3 Directory/Control의 크기가 늘어남과 동시에 메모리 컨트롤러(MC)가 추가된 관계로 약간 크다


CPU 다이 4개와 3차 캐시×4를 하나로 모듈화 한 MCM(Multi-Chip Module)은 한변이 95mm라는 거대한 것이었다. 동작 주파수는 당초 발표된 0.13μm SOI 프로세스를 사용한 것이 최대 1.9GHz, 프로세스를 90nm SOI로 미세화한 POWER5+는 당초 발표된 것은 1.9GHz가 종점이었으나 뒤이어 2006년에는 2.3GHz 까지 상승됐다.


POWER5의 개요. 이 사진은 CG 또는 프로토 타입 같고, 양산품에서는 다이 주변 콘덴서의 배치수가 증가하면서 배치도 다르다



자 이야기를 ASC Purple로 돌린다. ASC Purple은 POWER5 프로세서(POWER5+는 아님)을 탑재한 IBM System P5 575라는 머신이 이용됐다.

 

원래 POWER5는 최대 8프로세서(16코어)까지 쉽게 구성할 수 있도록 배려하고 있지만 ASC Purple에서는 이 8프로세서 구성을 하나의 노드로 8코어가 이용됐다.

 


ASC Purple은 8프로세서 구성이 1개의 노드로 된 구성이다. 


System P5 575라는 머신은 클러스터 구성 전용 특수 시스템으로 취급되어 1.9GHz 구동 POWER5 칩을 쓰면서 CPU 코어의 한쪽을 무효화하는 독특한 사용 방법이 적용됐다.


이에 따라 공유 2차/3차 캐시 및 메모리를 한쪽 CPU 코어에서 점유할 수 있기 때문에 성능이 올라간다는 사치스러운 구성이다. 하드웨어적으로 IBM System P5 570과 달리 독특한 구성이 이용됐다.


일반적인 System P5 570의 경우는 1개의 POWER5 칩과 DIMM 슬롯×8, 그리고 SMI-II라는 DIMM 버퍼를 탑재한 DCM(Dual-chip Modules:CPU 카드 명칭)를 2장을 하나의 케이스에 담은 형태다.

 


System P5 570의 DCM.SMI-II는 DDR2 DIMM을 채널당 4장 장착하기 위한 버퍼 칩. 메모리 자체는 DDR2-533의 512MB DIMM이 이용됐다는 설명이 있다


1대의 케이스 내부 구조. 왼쪽 아래 2장이 POWER5 프로세서 카드


이 2장의 카드는 8프로세서 구성으로 말하는 종방향 결선이 된다. 가로 방향은 케이스 간을 전용 케이블로 잇는 것으로 구현되어 있다.



프로세서간 접속 전용 케이블이 복수 준비


이에 비해 System P5 575는 8개의 DCM과 DCM마다 8슬롯의 DIMM, 전원 유닛과 냉각팬이 2U의 섀시에 붙어 있다.



로렌스 리바모아 국립 연구소의 ASC Purple 설명 페이지에서 발췌. 이 페이지의 설명에서 DDR 메모리가 장착될 수 있게 설명되고 있다 이것도 설명 페이지. 중앙의 검은 부분이 POWER5 프로세서로 그 앞뒤를 DIMM과 SMI(SMI2)가 감싸는 형태로 되어 있다


2U로 16way SMP(ASC Purple의 경우는 실제로는 8way) 접속이 되는 형태다. 참고로 메모리가 DDR인지 DDR2인지는 확실하지 않다.

 

원래 POWER5 자체는 어느 쪽도 가능하며 SMI을 사용하면 DDR 지원, SMI2을 사용하면 DDR2 대응인데 로렌스 리바모아 국립 연구소의 설명 페이지에는 DDR×8 구성으로 설명되고 있다.

 

한편 로렌스 리바모아 국립 연구소의 Tom Spelce가 2006년 SCI COMP 12에서 발표한 "Early Performance Results from the LLNL/NNSA Purple Computer"라는 논문에서는 분명히 DDR2 512MB라고 설명되어 있다.


그래서 초기 시스템은 DDR 기준, 나중에 추가한 부분은 DDR2 기반으로 혼재 하고 있었는지도 모른다.


앞 페이지에서 설명한대로 System P5 575는 8P 구성 SMP 머신이 1노드인데 이를 1536노드 연결한 것이 ASC Purple이다.


IBM System P5 575를 1536노드 연결한 것이 ASC Purple이다. 노드 자체는 1548+2로 1550개 존재한다. 로렌스 리바모아 국립 연구소의 Tom Spelce의 논문에서 발췌


역시 단일 스위치로 1536노드의 커버는 완전하지 않는 것이었고 실제로는 3개 수준의 트리 구조로 어디선가 들은 듯한 구성이다.


3개 수준의 트리 구조가 된 네트워크 개념도


ASCI Q는 단순한 FAT 트리지만 ASC Purple은 omega 네트워크 구성으로 단순히 수준 수가 같아도 동일하게는 비교할 수 없다. 또 ASC Purple의 경우 2U 유닛 하나에 1노드 및 하나의 섀시에 12노드 분을 구성할 수 있었다.



1개 섀시에 12노드 분을 거두며 전원부가 최상단인게 흥미롭다. 이것도 ASC Purple 설명 페이지에서 발췌


때문에 전술한 네트워크 개념도에서의 Level 1 Switch는 섀시의 하단에 넣어 배선이 짧고 고속으로 접속된다. 아래의 사진이 Level 1 Switch의 내부 구조로 4×4 Swicth를 사용하고 32포트의 스위치가 구성되어 있다.


스위치 유닛 구조. 하나의 스위치 레이턴시는 59나노초이므로 같은 섀시 내부의 다른 노드와의 통신은 118나노초+α(배선 지연 분)로 통신할 수 있게 된다. 설명 페이지에서 발췌


이 중 16포트가 노드에 할당되고 남은 16포트가 다른 프레임 접속에 이용된다. Level 2이상은 본래 네트워크가 이중화되어 Level 2가 192, Level 3가 96 노드수가 된다.



스위치의 구조. ASC Purple 본체 이외의 시스템도 있고 스위치는 섀시 192개 분이 준비되어 있다



Tom Spelce의 논문에서는 최대 8192노드까지 범위로 대역과 레이턴시 측정을 하고 있으나 대역은(통신 메시지나 송신 방법에 의하지만)대체로 목표인 "이론 대역의 45%"라고 하는 효율에 가까운 숫자를 달성했다.


또 레이턴시는 멀티 프로세서 시스템에서 이용되는 MIP_Allreduce라는 함수를 실행하기 위한 소요 시간이 8192노드의 경우 150마이크로초 전후로 억제되고 있음이 알려졌다.


다음에는 납품하는 시스템이다. 지금까지 설명했던 대로 ASC Purple는 POWER5를 기반으로한 시스템이지만 이것이 공식 발표된 것은 2005년으로 납품을 시작해도 애플리케이션 대응 등이 늦어지게 된다.


거기서 우선 2003년부터 2004년까지 EDTV(Early Delivery Technology Vehicles)로서 POWER4 베이스의 IBM pSeries p655를 기반으로 한 UM 및 UV라는 시스템이 도입된다. 이는 모두 8P 구성 1.5GHz POWER4 머신을 128노드 연결된 소규모 시스템이다.


이어 2004년 말부터 2005년까지 UP(Unclassified Purple)라는 System P5 575의 108노드 구성의 머신과 1536노드의 Purple이 병행하여 설치되어 2005년 7월 22일에 이용이 가능했다.


로렌스 리바모아 국립 연구소에 납품된 ASC Purple


이 중 1280노드(10240코어)를 이용해 LINPACK을 실행한 결과는 63.4TFLOPS로 이론 성능인 77.8TFLOPS의 81.5%에 이르고, 2005년 11월 TOP500에서 3위에 올라선다. 다음 2006년 6월에는 1526노드(12208코어)로 75.8TFLOPS에 도달해 계속 3위를 확보하는데 성공한다.

 

효율도 81.7%로 다소 개선되고 있으며 2010년 11월 19일 서비스 종료까지 거의 100TFLOPS에 가까운 플랫폼으로서 활용되어 왔다. 가장 절대 성능은 어쨌든 시스템 가격과 운용 비용이 역시 문제시 된다.

 

운용 비용으로 문제가 된 것은 주로 전기세 때문으로 시스템은 7.5MW의 전력을 소비하며 또 발열은 매시간 160만 BTU(British thermal unit:영국 열량)에 이르렀기 때문에 냉각 비용도 만만치 않았다.

 

이후 IBM은 PowerPC 기반의 MPP 방향으로 진입하게 된다.


출처 - http://ascii.jp

 

반응형
Posted by 랩터 인터내셔널

이번 슈퍼 컴퓨터 계보는 ASCI Q를 설명한다.

 

ASCI Q

 

처음은 30TFLOPS, 이어 100TFLOPS를 겨냥한 ASCI Q

지난번 처음 언급한 대로 ASCI의 다음 타깃은 30TFLOPS 다. 맨 처음 계획은 1998년 중에 계약을 마쳐 2001년 중에 운용에 들어가는 것을 목표로 했다. 다만 여러가지 시스템 선정이 늦어져 최종적으로 에너지부가 ASCI Q에 추가로 COMPAQ과 계약한 것은 2000년 8월 22일이다.

 

이때 계획은 375시스템의 Alpha GS320 Server를 납입하고 30TFLOPS를 노렸다. 나중에 이 시스템을 Alpha EV7 내지 Alpha EV8로 업그레이드하는 것으로 100TFLOPS를 염두에 둔 옵션도 마련됐고 최초의 시스템은 2002년 이른 시기에 100TFLOPS, 업그레이드 시스템은 2004년에 각각 운용을 개시하기로 했다.

 

계약 금액은 약 2억달러로 당시 환율로 환산하면 대략 210억엔 정도 되고, ASCI White의 두배다. 참고로 이건 ASCI Blue Mountain의 후계로서 로스앨러모스 국립 연구소에 설치됐지만 ASCI Blue Mountain 자체는 2004년 11월까지 운용되고 있어 다른 설치 장소가 필요했다.

 

이 때문에 로스앨러모스 국립 연구소는 ASCI Q에 맞춰 SCC(The Stragegic Computing Complex)로 불리는 건물을 6400만달러를 들여 건설했다. 그리고 이 건물은 2002년에 "Nicholas C. Metropolis Center for Modeling and Simulation"으로 명명.


 

ASCI Q에 채용된 첫 64bit RISC 프로세서 "Alpha"

 Alpha Server에 이용되고 있는 Alpha라는 프로세서에 대해서 좀 소개해 보고 싶다. Alpha 프로세서는 원래 DEC(Digital Equipment Corporation)이라는 회사가 1980년대 후반부터 개발을 시작한 칩이다.

 

이 회사는 원래 PDP 16bit의 머신을 개발·판매한 업체다. 첫 Unix는 PDP-7로 UNIX가 널리 보급되게 만든 System V6는 PDP-11상에서 동작하고 있으며 이것을 목적으로 PDP-11을 도입한 사이트도 적지 않았다고 한다.

 

DEC는 PDP-11에 이어 완전한 가상 기억에 대응하는 32bit OS를 지원한 VAX로 불리는 프로세서가 아닌 시스템을 1977년에 발표, 주류는 이쪽으로 넘어간다.

 

VAX는 프로세서 아니라 시스템인 것은 당시 기술로는 CPU 칩 하나로 극복하는 것이 아니라 대대적인 기판에 여러개의 칩을 조합하는 CPU 보드의 구성을 취하고 있었기 때문이다.

 

그 후 이 회사는 VAX의 고성능화와 원칩화를 추진하고 설계 기술이 어쨌든 반도체 제조 기술에 뒤져 1980년대 후반이 되면서 성능 면에서 타사(주요 경쟁은 IBM이었는데 그 외에도 많은 업체가 DEC의 시장에 성능/가격으로 도전해 왔다)에 추월당해 버렸다.

 

이 열세를 한꺼번에 뒤엎기 위해 복수의 프로젝트가 진행했고 그 중에 PRISM이라는 코드명으로 알려진 RISC프로세서 프로젝트도 포함됐다. Alpha는 이 PRISM에서 많은 성과를 이용하면서 첫 64bit RISC 프로세서로 다시 개발이 시작된다.



 

OS의 이식을 용이하게 하는 프로세서 EV4 "Alpha AXP 21064"

 

처음에 등장한 것이 "Alpha AXP 21064"칩으로 통칭 EV4로 불린다. EV는 "Extended VAX"의 약어로, 4는 이용한 프로세스 노드(CMOS-4:0.75μm)를 나타낸다. 이에 앞서 EV3이라는 CMOS3(1.0μm 프로세스)를 이용한 테스트 칩도 제조됐지만 이쪽은 다이 사이즈의 제한도 있어서인지 FPU가 없는 설계가 되어 있어 양산에 이르지 못했다.


그 EV4의 내부 구조는 아래의 사진과 같다. 명령 디코딩을 하는 IBoX, 정수 연산을 행하는 EBox, 부동 소수점 연산을 행하는 FBox와 주소 제어를 하는 ABox라는 4개 블록, 이것에 캐시와 레지스터 파일로 구성된다.

 


EV4의 내부 구조. 이것은 대략적인 것으로 실제로는 좀 더 복잡하다. 캐시 크기는 명령 데이터에 8KB. IEEE Micro June 1993의 "The Alpha AXP Architecture and 21064 Processors"


다이 크기는 14×17mm의 238mm2, 트랜지스터 수는 168만개라고 발표됐다. 동작 주파수는 최대 200MHz이며 이는 당시로서는 상당히 빠른 축에 든다.

 

명령 세트는 독자적인 것으로 VAX와 호환성은 없다. 원래 64bit로 확장한 시점에서 명령의 호환성을 유지하는 것은 어렵고 그 보다 VAX는 CISC의 명령 세트를 추가 하면 RISC의 이점을 다 깨뜨릴 수 있기 때문이다.


다만 컴파일(및 최소의 수정)으로 어플리케이션을 이행할 수 있는 배려가 이루어졌다. 그 으뜸가는 것이 PALcode(Privileged Architecture Library code)로 이름대로 특권 명령을 커스터마이즈 할 수 있는 것이다.


Alpha의 경우 동사가 제공하던 VMS라는 OS가 4단계 수준의 보호 메커니즘을 필요로 하는 한편 UNIX는 2차원에서 구현되어 있었다. 그 외에도 Windows NT의 이식이 예정 되었으며 이러한 OS의 요구에 따라 다른 PALcode를 제공함으로써 OS의 이식을 용이하게 하겠다는 배려가 이루어졌다.


또 일부 명령은 하드웨어에서 구현하지 못하고 이를 커버하기 위해 Trap barrier한 구조가 준비되고 있다. 이것은 "정의되고 있지만 구현되지 않은" 명령이 도달한 경우에 발동되어 통상적인 명령 처리를 중단하고 소프트웨어에서 이를 처리하라는 것이다. 이런 장치를 가진 프로세서는 Alpha 이외 별로 접한 적이 없다.


파이프 라인은 아래 사진에서 정수 연산과 부동 소수점 연산을 동시에 벌이는 In-Order의 2-way 슈퍼 스칼라 구성이다. 다만 2명령 동시 실행이라고 해도 정수 연산은 1명령/사이클이라 실효 성능이 다소 뒤떨어진다.

 


EV4의 파이프 라인. 정수로 6스테이지, 부동 소수 점에서 9스테이지는 당시로서는 긴 편에 속한다. 출처는 앞의 사진과 마찬가지

 

이 회사의 자료에 따르면 200MHz의 EV4의 성능은 SPECint92가 104.3, SPECfp92가 200.4으로 알려졌다. 약간의 후가 되는 1994년에 투입된 P54C 기반의 Pentium 100MHz가 각각 95.0/86.1, 혹은 1994년에 투입된 100MHz의 PowerPC 604가 각각 105.9/108.2라는 스코어를 냈고 동작 주파수와 비율을 생각하면 부동 소수점 연산 성능은 정수 연산 성능 만큼 충분하다고는 말할 수 없었다.

 

거기에서 1993년 10월에서 1994년에 투입된 것이 EV45의 Alpha AXP 21064A이다. 이것은 프로세스를 CMOS5(0.5μm)에 미세화하고 캐시 크기를 명령/데이터 모두 16KB로 강화했다. 또 FPU의 성능 개선이나 분기 예측 장치의 버퍼 확충 등 세세 부분에 수정을 가하는 동시에 작동 주파수를 최대 300MHz까지 끌어올리는 데 성공한다.

 

 

EV4 2배 크기의 슈퍼 스칼라 EV5 "Alpha 21164"

1995년에는 후계로 EV5의 "Alpha 21164"가 투입된다. 4명령을 동시 실행하는 EV4의 2배 크기의 슈퍼 스칼라가 최대 특징이다.

 

이에 따른 정수 연산 성능을 대폭 올리고 부동 소수점에서는 덧셈과 곱셈을 동시에 할 수 있었으므로 MAC 연산이 외관상 1사이클에서 시행될 수 있게 된 점도 크다.

 


EV5의 구조. 이전의 영상과 비교해 보면 FPU명령이 8단으로 처리가 끝나는 등 약간의 차이가 있지만 기본적으로는 21064의 실행 유닛을 배가시킨 느낌이다. 출처는 "Alpha 21164 Microprocessor Data Sheet"(EC-QP98C-TE)

 


참고로 EV5 자체는 최대 333MHz(당초는 300MHz로 한 것) 구동으로 알려졌지만 이 후계로 EV56 이 1995년 말에 발표돼 1996년부터 양산한다. 이것은 프로세스를 CMOS5(0.5μm)에서 CMOS6(0.35μm)로 미세화 한 버전으로 최대 작동 주파수는 700MHz에 달했다.

 

SPEC CPU 95의 결과를 보면 612MHz 구동의 Alpha 21164는 SPECint95 18.4/SPECfp95 20.8이란 점수가 제시되고 있다. 이 결과 테스트 시기(1997년 9월)에 가까운 것을 찾자 인텔의 Pentium 233MHz가 각각 7.03/5.18, IBM의 332MHz Power604e가 12.9/6.21이며 이 세대의 프로세서와 비교하면 머리 하나가 더 있는 성적을 유지하고 있다.

 


 

Out-of-Order를 구현한 EV6 "Alpha 21264"

 

이어 1996년 10월 Microprocessor Forum에서 EV6 "Alpha 21264"가 발표된다. 내부 구조는 4-way 슈퍼 스칼라라는 점은 EV5와 함께 끝내 Out-of-Order를 구현하게 됐다.

 

이에 따라 ALU 구조가 크게 변화하고 있다. 아래의 사진이 21264 내부 구조지만 정수 연산부는 2반 ALU와 그와 대칭되는 주소 계산 단위가 준비되어 있다.

 


21264 내부 구조. MicroDesign Resources의 Microprocessor Report Oct 28,1996에서 발췌. 이는 MicroProcessor Forum에서 발표한 것

 

주소 계산 단위의 역할은 정수 연산에 따른 메모리 액세스가 발생할 경우 이를 처리하는 것이다. 이는 AMD의 K7 등과 가까운 발상이지만 Alpha의 설계 팀이 통째로 AMD로 이동하고 개발을 했으니 당연히 같다고 해야 할까.

 

파이프 라인은 정수 연산이 7스테이지, 메모리가 9스테이지, 부동 소수점 연산이 10스테이지로 Out-of-order를 구현한 것 치고는 적다고 느껴진다.


프로세스는 계속 CMOS6을 이용해 당초 동작 주파수는 500MHz으로 알려졌다(참고로 이 발표 시점에서는 EV56도 아직 500MHz 구동이었다).

 

소비 전력은 이 500MHz 버전에서 60W로 추정되고 있으며 훌륭한 크기지만 최종적으로 600MHz 까지 작동 주파수는 올라 소비 전력은 110W에 달했다.

 

이 EV6의 개량형으로 Samsung의 0.25μm 프로세스를 이용하고, 동작 주파수를 833MHz까지 올린 것이 EV67로 이는 1999년 말에 시장에 투입된다.


또 2000년에는 IBM의 0.18μm+구리 배선 프로세스를 이용한 EV68C가 샘플 출하를 시작해 최종적으로 1.25GHz까지 동작 주파수가 상승했다. ASCI Q에서 이용된 것은 이 1.25GHz 구동의 EV68C.

 

 

EV8까지 이어지는 후계 프로세서

2002년에는 EV68 코어를 이용하면서 대용량 2차 캐시와 4ch의 Direct RDRAMr, 그리고 프로세서 간을 하이퍼 큐브 구성의 전용 링크로 접속하기 위한 라우터를 추가한 EV7 "Alpha 21364"이 발표된다.


각 프로세서에 직접 메모리를 접속함으로써 성능 향상을 도모한 EV7. 출처는 2001년 Hot Interconnects에서 발표된 논문 "The Alpha 21364 Network Architecture"


당초는 1999년 중에 테이프 아웃해 2000년에는 양산 예정이었으나 실제 테이프 아웃은 2001년 4월까지 지연되면서 출하는 2002년에 들어선다. 최고 작동 주파수는 EV68처럼 1.25GHz으로 알려졌지만 실제 제품은 최대 1.15GHz가 종점이 됐다.

 

이를 IBM의 0.13μm SOI 프로세스로 동작 주파수를 1.45GHz까지 올릴 예정이었다 EV79는 2003년에 취소되며 프로세스를 바꾸지 않고 1.3GHz까지 동작 주파수를 올린 EV7z이 1994년에 투입되고 이것이 마지막 Alpha가 되었다. 계획에서는 또 4-way SMT를 채용한 EV8도 있었지만 이것도 취소되고 있다.

 


EV8의 파이프 라인. 기본적으로는 EV7의 CPU 코어를 4스레드 대응 SMT 하는 것 이외는 EV7과 같은 구성으로 되어 있었다. 출처는 1999년 Microprocessor Forum의 EV8의 프레젠테이션 자료

 

COMPAQ이 DEC를 인수해 ASCI 프로젝트에 참여

이 Alpha를 설계·제조하던 DEC는 1990년대 전반부터 급속히 실적이 악화됐다.


DEC의 실적은 회복되지 않고 결국 1998년 6월 이 회사는 COMPAQ에 인수됐다. COMPAQ은 매우 강력한 서버 제품의 라인 업을 손에 넣고 이를 바탕으로 ASCI 프로젝트에 참여하기로 결정했다.

 


ES45라는 머신 3000대로 30TFLOPS를 실현할 계획


결과적으로 COMPAQ은 떳떳하게 ASCI Q라는 명칭으로 30TFLOPS의 프로젝트를 수주할 수 있었다. 그곳에서 Alpha GS320을 바탕으로 이 시스템을 구축할 예정이었다. 베이스가 되는 것은 AlphaServer ES45로 불리는 4프로세서/최대 32GB 메모리의 8U 랙형 머신이다.


ES45 내부는 아래의 사진처럼 4개의 CPU와 최대 32GB의 메모리, 그리고 PCI 버스가 칩셋(스위치)에 닿아 있는 셈이다. 이 ES45 1대당 성능은 1.25GHz 구동이라면 10GFLOPS가 되므로, 30TFLOPS를 실현하기 위해서는 ES45가 3000대 있으면 되는 셈이다.

 


이는 1GHz 구동의 예이므로 1.25GHz 구동의 경우 CPU와 스위치 사이의 대역은 5GB/sec(64bit@625MHz)가 되고 있다고 생각한다. 출처는 앞의 사진과 마찬가지


Alpha GS320 Server는 8개의 AlphaServer ES45를 전용 글로벌 스위치로 접속하게 되며 이것이 375대 설치되어 375×32=1만 2000CPU로 30TFLOPS인 셈이다.



Alpha GS320 Server는 8개의 ES45 칩셋들을 상호 접속 함으로써 32way의 SMP가 구성된다. 출처는 COMPAQ이 낸 카탈로그 "Compaq AlphaServer GS80/GS160/GS320"(JSV0185-05)


자, 이걸 어떻게 연결시킬 것인지가 다음의 문제지만 COMPAQ는 당시 Quadrics사의 Network(QsNet)를 이용하고 있었다. 이 QsNet 용 어댑터는 Elan으로 불리며 ES45의 64bit/66MHz PCI 버스에 장착된다.


Elan 어댑터의 내부 구조. 참고로 Thread Processor는 32bit의 SPARC 프로세서가 이용되고 있었다고 한다. 출처는 로스앨러모스 국립 연구소가 2001년 Hot Interconnects에서 발표한 논문 "The Quadrics Network(QsNet):High-Performance Clustering Technology"


이와 짝을 이루는 것이 Elite로 불리는 스위치로 8개의 링크를 가질 수 있다. 이 Elite로 Fat-tree의 구조를 형성하는 방식으로 AlphaServer ES45 사이를 접속했다.


동그라미가 Elan, 사각이 Elite. 대수가 많아서 Fat Tree 자체가 2단 구성으로 되어 있을게 분명하다. 출처는 로스앨러모스 국립 연구소가 2003년 Hot Interconnects에서 발표한 "Scalable Collective Communication on the ASCI Q Machine"


Elite 자체는 8개의 링크를 갖고 4up/4down 구성이지만 2/3단 Tree의 노드에는 이것으로 부족해 Elite자체를 여러개 조합해 2단은 16up/16down, 3단은 64up/64down이라는 강렬한 스위치를 만들고 있다.

 

당연히 성능은 별로 좋지 않아 예를 들면 대역은 128노드 부근까지는 250MB/초 이상을 유지하는 것이 거기에서 급격히 악화되어 1024노드에서는 100MB/초 정도다.

 

노드 간 동기를 취하는 장벽의 처리를 할 경우 하드웨어 기반에서는 1024노드에서 10마이크로 초 정도지만 소프트웨어 베이스에서는 30마이크로 초를 요하는 등 노드 수가 늘어나면 성능이 급격히 나빠지는 것으로 확인됐다.

 

 

20TFLOPS서 끝난 ASCI Q

ASCI Q의 문제는 더 근본적인데 있었다. 2001년 6월 COMPAQ은 Alpha 프로세서의 개발을 2004년까지 중단하고 이 회사의 소프트웨어 자산을 Itanium으로 이행하는 것을 발표했다. 이 결과로 당초 발표된 EV7/8 베이스의 시스템에서 100TFLOPS라는 계획이 틀어졌다.

 

다음 2002년 6월, 로스앨러모스 국립 연구소의 내부에서 ASCI Q가 예정대로 진행되지 않은 것이 익명으로 고발됐다. 원래 10TFLOPS에서 1.25GHz의 EV68이 1024노드(4096 프로세서) 설치되어 있어야 했지만 실제로는 1GHz의 EV68이 납품되고 8TFLOPS 상당의 성능일 뿐 이라는 것이었다.

 


1/3의 머신이 설치된 상태에서의 ASCI Q의 사진. 출처는 Natural Resources Defense Council 이 2004년 4월에 공개한 "WEAPONEERS OF WASTE"


이때 로스앨러모스 국립 연구소의 대변인은 이는 3단계로 나눠진 납품의 첫편이며 2002년 말까지는 30TFLOPS의 머신이 설치된다고 했다.

 

다만 이후도 스케줄대로는 설치가 진행되지 않고 2004년도의 핵안전 보장국의 예산 요구 중에서 ASCI Q의 일정이 지연되고는 있지만 최종적으로 30TFLOPS의 머신을 설치하는 것이 제시됐다.

 

2005년도 요구에서는 "20TFLOPS의 ASCI Q가 운영된다"로 변해 버렸다. 요컨대 COMPAQ은 20TFLOPS 분의 머신 밖에 납입하지 못한 셈이다.

 

도대체 무엇이 있었는지는 여기에서 알기 어렵고, Delivering Insight ASCI에 이르러서는 마치 처음부터 30TFLOPS의 계획은 없었던 것처럼 "2000년에는 20TFLOPS의 피크 성능을 가진 ASCI Q 시스템이 로스앨러모스 국립 연구소에 설치된다"로 슬쩍 흘리고 있는 모습, 뒤에서 어떤 소동이 있었는지 생각하는 것도 두렵다. 최종적으로 ASCI Q는 2048node/8192 프로세서로 구성되어 끝났다.

 

더 나쁜 것은 그 ASCI Q가 그 전의 ASCI Blue Mountain에 비해 실제로는 시스템 안정성이 나쁜, 2002년 시점에서는 쓸모 없다고 판단되고 있던 것이다.

 

2003년 2월 핵안전 보장국은 "로스 앨러모스 국립 연구소가 W76 트라이던트 SLBM(잠수함 발사 탄도 미사일)의 3차원 시뮬레이션을 ASCI Blue Mountain에서 실시한다"고 밝혔으나 실제로는 ASCI Blue Mountain에서 ASCI White를 원격으로 접속해 거기에서 시뮬레이션을 했다는 트릭은 나중에 밝혀지고 있다.


즉 Blue Mountain 위에서는 ASCI를 목적으로 한 핵 실험에 대한 애플리케이션은 거의 가동되지 못하고 ASCI Q로 이행시키지 않았던 것으로 보인다. 또 ASCI Q의 기동에 대부분 8시간을 요했다는 수치도 있고 무언가 있을 때마다 8시간을 기다리지 않으면 안 된다는 것은 가동률을 높이 유지하기 위해 방해가 된 것 같다.

 

성능 면에서는 TOP500에서 2003년 랭킹 2위로 잡힌 것 그것이 피크였다(참고로 이때 1위는 어스 시뮬레이터).

 

이 어스 시뮬레이터가 87.5%(이론 성능 40.96TFLOPS에서 실효 성능 35.86TFLOPS)에 이르는 것과 비교하면 상당히 뒤떨어진다.


그리고 로스앨러모스 국립 연구소가 2002년에 펴낸 카탈로그에 따르면 10.24TFLOPS 구성 상태에서 Linpack 벤치 마크를 실시하고 7.727TFLOPS의 실효적 성능을 발휘했다고(효율 75.48%) 하고 있어 인터 커넥트에 장애가 있는 것은 분명하지만 그렇다고 그렇게 간단히 해결 될 문제도 아니다.


그래서인지 2003년경부터 로스앨러모스 국립 연구소는 "기타 용도"에 ASCI Q가 이용될 수 있는 것을 적극적으로 알리기 시작해 2005년에는 로스앨러모스 국립 연구소의 Department of Theoretical Biology and Biophysics에 속하는 Kevin Y. Sanbonmatsu 박사가 ASCI Q에서 리보솜의 전사 움직임을 분자 수준에서 시뮬레이션하는데 성공한 것 등을 어필하기도 했지만 이미 때늦은 것으로 본질적인 해결은 잘 되지 않은 모양이다.

 

핵안전 보장국의 Accomplishment(업적)이라는 페이지를 보면 2003년도 회계에 이미 ASCI Q는 "retired from service"(은퇴)라는 끔찍한 것이 적혀 있다.

 

운용 자체는 2007년까지 계속 되었지만 정작 ASCI에서는 바로 발을 빼버렸던 형태로 그 의미에서는 2억달러를 시궁창에 버렸다는 평을 받는 것도 어쩔수 없다고 생각된다.

 


출처 - http://ascii.jp

반응형
Posted by 랩터 인터내셔널

슈퍼 컴퓨터의 계보, 이번부터 ASCI의 이야기를 한다. ASCI는 Accelerated Strategic Computing Initiative의 약어로 "가속적 전략적 컴퓨팅·이니셔티브" 라는 신비한 역어도 있다.

 

현재는 ASC(Advanced Simulation and Computing program:선진 시뮬레이션 및 컴퓨팅 계획)이라는 명칭으로 바뀌고 있다.


 

 

ASCI Blue Mountain

 

핵 실험 시뮬레이션을 위해 태어난 ASCI

이 ASCI가 성립 된 배경을 먼저 해설한다. 이야기는 1995년 11월로 거슬러 올라간다. 클린턴 대통령은 CTBT(Comprehensive Nuclear Test Ban Treaty:포괄적 핵 실험 금지 조약)을 비준할 방침을 밝힌다.

 

클린턴 대통령은 1996년 9월에 이에 서명하지만 상원은 원래 비준에 관한 심의를 거부, 최종적으로 1999년 10월에 상원에서 심의에 들어간(여기에 이르기까지 꽤 우여곡절이 있었다)것의 비준은 부결된다.

 

이어 부시 정권은 핵 폭발을 동반하지 않은 임계 핵 폭발 실험을 진행했고 CTBT 자체가 아직 모든 핵 보유국의 비준을 받지 않은 발효 상태였기 때문이지만 이 역사 자체는 본론은 아니므로 여기까지 한다.

 

이야기를 1995년 11월로 되돌리면 미국 정부로서는 CTBT 비준 방침을 밝힌 이상 그것이 실현 된 경우에 대비할 필요가 있다.

 

구체적으로는 SSMP(Stockpile Stewardship and Management Program:비축 탄두 유지 관리 계획, Management를 뺀 SSP:Stockpile Stewardship Program라고 하는 경우도 있다)를 핵 실험 없이 어떻게 수행할지 입안할 필요성이 생겼다.


핵무기를 유지할 때 그 안전성 및 신뢰성을 확인한다는 것은 핵무기의 성격상 필요하며 지금까지는 정기적으로 핵 실험을 한 형태로 실시했지만 CTBT는 이러한 핵 실험 자체를 금지하는 것이어서 다른 수단이 필요하다.


거기서 실제 핵 실험 대신 컴퓨터 시뮬레이션으로 이를 실시한다는 아이디어가 나왔다.

 

단순히 생각해도 여러가지 문제는 많다. 시뮬레이션을 할 경우 정밀도를 보장하기 위해서는 어딘가에서 실제 결과와 비교할 필요가 있으므로 핵 실험을 즉각 중단하면 이 정도의 담보가 매우 어려워진다.

 

실제 미국에서도 이것도 대해 여러가지 분규 했으나 그것도 본론은 아니므로 여기는 생략한다. 중요한 것은 CTBT 비준에 의해 정밀한 핵 실험 시뮬레이션이 가능하게 하는 시스템이 필요하게 되었다는 것이다. 이에 따라 DoE(Department of Energy:미국 에너지부)가 책정한 것이 ASCI.

 

즉 ASCI는 SSMP의 일부라는 것이다. 실제로 ASCI는 DoE 산하 로렌스 리바모아 국립 연구소, 로스앨러모스 국립 연구소, 샌디아 국립 연구소란 3개 연구소가 일체가 되어 개발한다는 방침을 취하고 이에 캘리포니아 공과/시카고/일리노이/스탠퍼드/유타라는 5개 대학이 협력하는 형식이다.

 

1996년 9월에 발표된 ASCI 프로그램 계획에 따르면 1997년도의 ASCI에 대한 지출은 1억 2160만 달러가 책정되었다.


 

1997년도의 ASCI에 대한 지출
어플리케이션 개발 5490만달러
문제 해결 환경 구축 2350만 달러
플랫폼 개발 3370만 달러
전략 얼라이언스 관계 610만 달러
관련 지출 340만 달러

 

내역은 표대로 적잖은 금액이 이에 들어가고 있었던 것이 분명하다.

 

그 ASCI의 주요 목적은 "2010년까지 핵무기 성능 평가나 리뉴얼 프로세스 분석, 사고 분석과 검증을 가능한 완전하고 고성능인 물리 시뮬레이션 코드 생성"이다.

 

미국의 컴퓨터 업계에 이러한 코드를 실행하기 위해 필요한 보다 고성능/ 고용량인 하이엔드 슈퍼 컴퓨터 개발을 촉진하고 이들을 실현하기 위한 여건도 중요한 과제로 꼽혔다.

 

당연하지만 핵 실험 시뮬레이션은 그만큼 고성능/고 정밀의 것이라서 우선 이것을 어떻게 할 필요가 있으며 다음에 그것을 움직이기 위한 플랫폼 개발, 환경 정비, 1997년 예산의 절반 가까이가 애플리케이션 개발에 맞춰진 것도 당연하다.

 

그 어플리케이션 개발의 본질을 떠나 하드웨어적인 부분이다. 아래의 사진은 ASCI Program Plan에서 제시된 2002년 부근까지의 로드맵이다.


 

 


1996년 9월의 어플리케이션 시스템 인프라의 로드맵. Computers칸의 세로축은 대수.
 

가장 윗면이 애플리케이션으로 각각의 시기에 어떤 애플리케이션을 준비할 수 있거나 혹은 개발에 착수하고 있어야 할지를 나타낸 것, 가장 하단이 인프라로 각각 어떤 인프라가 이용되야 할지를 나타낸 것이다.

 

사이에 위치한 것이 슈퍼 컴퓨터의 성능으로 대략적으로 말하면 1996년에 비해 2000년이 10배, 2003년경에는 100배를 하겠다는 것이다. 오른쪽 아래에 있는 기존의 컴퓨터 성능 향상을 연장해 가면 2002년경 1012Ops(1T Ops), 1014Ops(100T Ops)에 도달하는 것은 2025년경이다.


 

주요 컴퍼넌트의 성능은 1996년~2003년 사이에 1000배로 높이면서 이 결과로 애플리케이션 성능을 10만배로 만들겠다는 목표인데 왠지 이 시점에서 석연찮은 점이 있다. 1000배 밖에 안 되는 기분이 드는 건 필자뿐일까?


 

복수의 시스템을 병행하여 개발, 순차적으로 그것을 이용하는 ASCI

 

ASCI는 목표에 대해 일약에 완성판의 시스템을 만드는게 아니라 복수의 시스템을 병행하여 개발하고 순차적으로 그것을 이용하는 형태로 목표를 달성한다는 접근이 취해진다. 그것이 아래의 사진이다.

 


ASCI는 복수의 시스템을 병행하여 개발하고 순차적으로 그것을 이용하는 형태로 목표를 달성하는 구조. 이 시점에서 Option Red와 Option Blue만 있고 그 다음은 미정이었다


구체적으로는 이하의 표 형식으로 진행했다. Purple만 ASC로 이름이 바뀌는 것은 2004년에 프로젝트 이름이 ASCI에서 ASC에 바뀐점 때문이다.


ASCI시스템
Option이름 연산 성능 메모리 양 실용화 시기
ASCI Red 1T FLOPS 이상 0.5TB FY1996
ASCI Blue 3T FLOPS 이상 1.5TB FY1998
ASCI White 10T FLOPS 이상 5TB FY2001
ASCI Q 30T FLOPS 이상 10TB FY2003
ASC Purple 100T FLOPS 이상 30TB FY2007


참고로 이건 어디까지나 당초 계획에 따른 표인데 실제로는 ASCI Blue는 ASCI Blue Pacific와 ASCI Blue Mountain의 2개가 존재한다. 또 ASCI Red의 후계로서 Red Storm이 추가됐다.


2000년에는 ASCI의 각 머신를 메우는 위치 설정이 되는 Blue Gene/L도 발주돼 2005년 실용화되었다. 이 Blue Gene/L은 IBM이 독자 개발을 계속해 Blue Gene/P 및 Blue Gene/Q가 개발 되었다. 이 Blue Gene/Q를 바탕으로 한 것이 Sequoia로 2012년부터 가동됐다.

 


ASCI의 각 머신. 사진 출처:로렌스 리바모아 국립 연구소


이들 각각의 머신의 자세한 내용은 다음부터 자세히 설명해 나갈 것이며 그 전에 ASCI와 ASC 프로젝트에 다시 이야기를 되돌린다.


ASCI의 원래 목적은 앞서 말한 대로 핵 실험 시뮬레이션이다. 이에 대해 열거하면 다음과 같다. FY2000은 미국 회계 연도 2000년(2000년 10월 1일~2001년 9월 30일)을 의미한다.


 

ASCI와 ASC프로젝트의 진척
FY2000 핵무기를 사용한 폭발(Primary Explosion)을 3D 시뮬레이션 함과 동시에 그 내용을 분석하는 시연에 성공.
FY2001 2차 폭발(Secondary Explosion)의 시연에도 성공하는 동시에 ASCI White를 이용하여 완벽히 동작하는 문제 해결 환경을 제공하는데 성공한다. 또 시뮬레이션 조건에 관한 제반 검증에 처음 통과한다.
FY2002 완전한 열 핵무기 폭발 시뮬레이션과 사고 상태에서 핵무기 상황 3D 분석도 가능해졌다.
FY2003 핵무기 시스템의 다양한 상태에서의 안전 시뮬레이션을 제공 개시.
FY2004 실제 핵무기 모델의 검증을 완료하고 W76/W80 핵폭탄의 수명 연장을 위한 정비를 지원하는 동시에 W88 핵폭탄의 지원을 추가.또 비 핵무기 실험과 판정의 시뮬레이션도 지원.


대체로 2005년경에는 초기의 목적을 어느 정도 달성할 수 있게 됐다. 이어 다른 핵무기의 지원이나 새로운 시뮬레이션 등도 수시로 추가되고 있는데 처음 ASCI의 목적은 어느 정도 달성했다고 생각할 수 있는 좋은 상태가 됐다.

 

이에 따라 ASCI가 ASC로 바뀐 것은 2004년의 일이다. ASC의 주 목적은 계속 SSMP/SSP의 유지인데 동시에 당초의 목적에는 없었던 복잡하고 불 확실한 시나리오의 지원이나 ICF(Inertial Confinement Fusion:관성 핵융합)의 서포트 등 보다 높은 수준으로 타겟을 옮기면서 현재도 진행중이다.

 

결과적으로 2009년에는 Peta FLOPS 머신, 2016년에는 100P FLOPS의 머신, 2018년에는 Exascale(1E FLOPS)의 머신을 각각 필요로 한다는 로드맵을 그렸다. 그리고 Peta FLOPS 머신이 Cielo, 100P FLOPS의 머신이 아까 나온 Sequoia로 현재 가동 중이다.

 

이어 ASC의 최신 로드맵(PDF)에는 AST 1(Trinity)/ATS 2/ATS 3 라는 3세대 ATS(Advanced Technology Systems)와 병행하여 TLCCII/CTS-1/CTS-2라는 3세대 CTS(Commodity Technology Systems)가 개발됨이 드러나고 있다.

 


아직 ATS 2 이후의 이름은 정해지지 않은 것 같다


ATS란 SSP를 위한 피크 성능을 요구하는 스페셜 시스템 대해 CTS는 표준적인 시스템 구성을 사용하고 저렴한 가격으로 계산 능력을 실현한다는 것이다.


현재 이용되고 있는 TLCC II(Tri-Lab Linux Capacity Cluster 2)는 로렌스 리바모아, 로스앨러모스 샌디아 3개의 국립 연구소에서 공동으로 운용하고 있는 Linux Cluster의 제 2세대라는 것이다. 이 이야기도 계속 되겠지만 ASC는 미국의 슈퍼 컴퓨터 시장을 견인하고 있다고 해도 좋을 것이다.

 

다음은 ASCI Red부터 순차적으로 설명해 나간다.

 


출처 - http://ascii.jp

반응형
Posted by 랩터 인터내셔널

brand98_i6.jpg

 

 

= Cisco Intercloud


 

시스코 시스템즈는 6월 10일(미국 시간) Cisco Live US 2015에서 각국의 파트너사와 추진하는 클라우드 서비스 네트워크「 인터클라우드(Intercloud) 」강화를 발표했다. 


Intercloud : 서로 독립된 클라우드와 클라우드 간 상호 연계성을 강화하는 기술


2014년 3월에 발표된 시스코의 인터클라우드는 각국의 클라우드 파트너와 고객의 사생활 클라우드를 조합한 하이브리드 클라우드 환경을 제공하는 기술로, 팔러시 베이스(정책 기반) 인프라 프로비저닝 기술인 Cisco ACI(Application Centric Infrastructure), 클라우드를 안전하게 접속하는 Cisco Intercloud Fabric, OpenStack 이라는 3가지 컴포넌트 기술에 기반하여 IT 관리자는 단일 매니저에서 단일 팔러시에 근거하여 하이브리드 클라우드를 제어할 수 있게 된다. 


= Cisco ACI : 애플리케이션 정책이 물리 및 가상 인프라를 자동화하고 통합하는 모델, 실시간 가시성과 성능, 확장성을 갖춘 모델


시스코의 인터클라우드 강화의 첫번째로는 35개 이상의 ISV(독립 소프트웨어 벤더) 파트너와 제휴된 인터클라우드 마켓플레이스(Intercloud Marketplace) 신설이 발표됐다.


인터클라우드 마켓플레이스는 Docker와 Chef, Apprenda 같은 개발 플랫폼/도구, Apache Hadoop 및 MapR, Hortonworks, Cloudera의 상용 Hadoop, MongoDB 등의 빅데이터/애널리틱스, 시스코의 Data Virtualization, EnergyWise 같은 IoE(Internet of Everything) 클라우드 서비스 3가지 영역을 중심으로 툴/소프트웨어를 전개한다.


이러한 툴/소프트웨어를 빠르고 신속하게 적용, Intercloud 상에 어플리케이션 개발과 전개를 용이하게 하여 개발자에게 플랫폼으로서 우위성을 갖게 하는 것이 목적이다. 


= Intercloud Fabric


인터클라우드 패브릭(Intercloud Fabric)은 다른 클라우드 간을 연결하는 역할을 하며 새로운 하이퍼 바이저로 기존 VMware vSphere에 OpenStack KVM, Microsoft Hyper-V가 추가 지원됐다.


인터클라우드 패브릭이 포함하는 가상 방화벽 Virtual Security Gateway(VSG)가 마이크로소프트 애저(Microsoft Azure)클라우드에 대응하여 고객은 개인 클라우드로 이용하는 ACI 정책과 동일한 정책을 사용해 Azure 상에 VSG에 의한 "Security Zone"을 실현할 수 있고, Intercloud Fabric을 통해 아마존 웹 서비스(AWS) VPC에 가상 머신을 전개하는것 또한 가능하다.


시스코는 이러한 인터클라우드에 대해 "모든 클라우드 기반을 단순히 연결하는것 뿐만 아니라 모든 클라우드에 걸쳐 프라이빗 클라우드와 동등한 보안 정책, 관리, 컨트롤을 적용할 수 있는 점이 인터클라우드의 핵심"이라 설명한다.


hyper_d.jpg

= Hyper Distribution

 


또, 향후 IoE(만물 인터넷) 시대가 도래하면 데이터와 애플리케이션이 모든 장소로 분산하는 "하이퍼 디스트리뷰션(초 분산)" 상황이 발생하는 것을 지적하고, 데이터 센터 이외의 장소에서도 마이크로 서비스의 동적 결합에 의한 애플리케이션 실행 및 실시간 데이터 애널리틱스 퍼포먼스가 요구됨에 따라 시스코가 이전에 발표한 포그 컴퓨팅(관련 링크)을 포함한 "초 분산" 환경 전체에 동일한 팔러시 및 보안을 적용하고 통합 관리할 수 있는 인터클라우드의 이점을 어필했다. 


이 마켓 플레이스가 개발 플랫폼, 빅데이터/애널리틱스, IoE 클라우드 서비스 3가지 영역에 초점을 맞추는 것은 개발자의 비즈니스 디지털화(Digitization)나 IoE 대응을 추진하는데 있어서의 우선 순위로 "소프트웨어"를 채택했기 때문이다.


시스코는 지난해부터 개발자용 포털 DevNet 서비스를 시작해 현재 33만 유저가 등록하고 있다. DevNet은 훈련 컨텐츠와 샘플 코드, PoC 환경으로서 이용할 수 있는 개발자 간 커뮤니티 기반 등을 제공하여 시스코 플랫폼에 대한 개발자들의 어프로치를 향상시키고 있다.


"인터클라우드, 빅데이터, 개발자라는 3가지를 조합하는 것으로 만물 인터넷이 가능하게 된다. 그리고 기업은 비즈니스 프로세스를 재정의하기 위한 이노베이션의 파워를 갖게된다"

반응형
Posted by 랩터 인터내셔널