AMD 차세대 x86 CPU "젠(Zen)" ARM CPU "K12"를 양축으로 전개한다. Zen 현재 불도저(Bulldozer) CPU 코어 "Excavator(엑스카베이터)"보다 40%나 클럭당 실행 성능이 높아진다. GPU에는 차세대 광대역 메모리 기술 "HBM(High Bandwidth Memory)"을 타사보다 앞서 채용한다.

앞으로 몇 년간 이 회사 신 아키텍처와 신 기술 러시가 진행된다. 강력한 신규 CPU 코어 GPU 코어를 기둥으로 게임 가상 현실 의 몰입형 플랫폼, 그리고 데이터 센터와 같은 시장을 개척한다는 전략이다.

PlayStation 4(PS4)과 Xbox One에서 성공한 세미 커스텀 형 비즈니스도 확산하고 있는 것으로 밝혔다. AMD는 지난 몇 년간 전통적인 PC 플랫폼 이외 시장 개척에 힘을 쏟아 왔고 신규 CPU 코어에 의해서 그 전략이 점차 구체화 되고 있다.


AMD 미국 뉴욕 증권 거래소 나스닥(NASDAQ)에서 개최한 "2015 FINANCIAL ANALYST DAY"에서 동사의 기업 전략 전환과 제품 로드맵 쇄신을 발표했다. 첫머리에 등장 AMD Lisa Su(리사수)(President and Chief Executive Officer, AMD)는 동사 비즈니스 이행이 순조롭게 진행되고 있으며 전통적인 PC 비즈니스 엔터프라이즈, 배치, 세미 커스텀 매출이 2014년 40%에 이른 것 설명. 이들 시장 확대로 이후 동사 사업이 급속하게 상승세를 탈 것이라 밝혔다.


111.jpg


 

이 회사가 이번에 발표한 제품 로드맵은 이러한 기업 전략에 따르고 있다. 강력한 CPU코어 투입에 포커스하여 플랫폼을 단순화하고 확장 가능하게 한다. 그래서 내년(2016년)에는 새로운 CPU 코어 탑재한 CPU 제품을 하이엔드 FX 시리즈로 출시한다.


222.jpg


 

젠은 현재 Bulldozer(불도저)계 마이크로 아키텍처 CPU코어가 아니라 완전히 새로운 설계 코어다. 올해의 APU "카리조(Carrizo)"에 탑재되는 엑스카베이터 코어보다 클럭 명령 실행 성능 IPC(Instruction-per-Clock)가 40%나 높아진다고 한다. Bulldozer계는 스레드 정수 연산 파이프가 2개지만에서는 3개 이상으로 되는 것 확실할 것.


333.jpg


 

또, AMD CPU에서는 처음으로 SMT(Simultaneous Multithreading)를 지원 한다는 것을 AMD 기술 전략을 총괄하는 마크 페이퍼 마스터(Mark Papermaster) Senior Vice President and Chief Technology Officer에 의해서 밝혀졌다. SMT 인텔 Hyper-Threading으로 채용하고 있으나의 탑재에 대해서는 밝혀지지 않았다.  캐시 시스템을 갱신해 광대역이며 동시에 낮은 레이턴시 캐시 계층을 구현하는 것도 공표, FinFET 3D 트랜지스터 기술을 제조 공정 기술 사용함으로써 전력 효율이 크게 개선된다고 설명했다.


AMD 지난해(2014년) 5월 젠과 함께 고성능 ARM 코어 "K12" 개발하고 있는 것도 밝혔다. K12 2017년에 투입되며 서버 성능이 요구되는 임베디드 시장을 위한 제품이다.의 개발 노하우가 K12에도 활용 될 것으로 보인다. AMD 고성능 CPU 커스텀 회로 설계를 다용하는데 K12 그러한 설계가 될 것으로 예상된다.

GPU 광대역 메모리 기술 HBM(High Bandwidth Memory,SK 하이닉스)를 채용한 제품 올해 중반 발표되는 것도 확인됐다. HBM 다이(반도체 본체)를 적층 하는 스택 DRAM 기술로 500GB/sec 이상 메모리 대역 GDDR5 보다 훨씬 낮은 소비 전력으로 실현한다. 이 회사는 HBM 우선 GPU GDDR5 대체 그래픽 메모리로 채용한다고 한다.


444.jpg


 

GPU 코어는 내년(2016년)에는 현행 GCN(Graphics Core Next)을 개량한 GCN 3.0으로 이행, FinFET 3D 트랜지스터 프로세스 기술로 이행하고 전력 효율을 2배로 높이겠다고 밝혔다. 가상 현실에 대한 최적화도 하겠다고.


555.jpg


 

CPU 코어 GPU 코어 개량에 의해서 AMD 앞으로 APU(Accelerated Processing Unit) 전력 효율도 높인다. 2020년까지 현재보다 25배 전력 효율 향상을 목표로 한다. CPU GPU를 통합한 HSA(Heterogeneous System Architecture) 프로그래밍 모델도 확충한다. 머신 러닝 시장에도 포함할 것이라 AMD는 생각한다.


666.jpg


 

제품 로드맵에서는 지난해 5월 발표한 x86 ARM 호환 " 설계 프레임워크" "Project SkyBridge(스카이브릿지)"가 취소된 것으로 밝혀졌다. 이는 x86 ARM 플랫폼 호환 요구 자체가 낮다고 AMD 설명한다.

무엇보다 스카이브릿지의 본질은 소켓과 마더보드와 같은 차원뿐만 아니라 SoC(System on a Chip) 내부 호환 x86 ARM 아키텍처 SoC 설계 호환성을 높인다는 점이다. 이 점이 K12 세대로 지속될지는 밝혀지지 않았다.

스카이브릿지는 20nm 프로세스로 올해(2015년) 제조 될 예정이었다. 그러나 20nm는 IP를 설계해 봤지만 CPU에는 이점이 적은 것 밝혀지면서 AMD는 메인 스트림 제품에는 20nm를 채용하지 않기로 했다고 한다. 현재 제품 로드맵에서 28nm 평면 트랜지스터 프로세스에서 14/16nm FinFET 3D 트랜지스터 프로세스 점프할 계획이다.

스카이브릿지의 취소는 이 회사 설계 자원을 집중시키고 플랫폼을 심플화하며 제품 라인을 정리한다는 점에서는 효과가 높다. , 기업과 내장, 세미 커스텀에 맞춘다는 회사 전략에도 부합한다. 결과적으로 AMD 로드맵은 단단한 이다.


출처 - http://pc.watch.impress.co.jp/docs/column/kaigai/20150507_700728.html

 

반응형
Posted by 랩터 인터내셔널

000_588x.jpg


3월 10일에 개최된 애플의 미디어 행사 발표에서 딱 한달, "맥북(MacBook)"이 출하됐다. 실버, 그레이, 골드의 세가지 색상 중 어느 것을 택할지 고민하던 사람도 있겠지만 실용적으로 활용할 수 있는지의 여부를 우려하는 사람도 많지 않을까?

 

"MacBook"(스페이스 그레이)

 

이번에 라인업 중 하위 기종으로 1.1GHz 듀얼 코어 인텔 Core M 프로세서를 탑재한 스페이스 그레이 모델을 테스트할 수 있었으므로 그 퍼포먼스와 사용법을 소개한다.

 

 

스페이스 그레이 모델의 전면. 애플 마크는 빛나지 않는다 플랫 한 바닥

 

애플의 새로운 "MacBook" 패키지

패키지에는 본체색과 같은 애플 마크 스티커가 동봉


주요 스펙


제품명 맥북(MacBook)
CPU 인텔 Core M-5Y31(1.1GHz/터보 부스트시 최대 2.4GHz)
메모리
(최대)
8GB 1600MHz LPDDR3
디스플레이
(해상도)
12형 와이드(2304×1440, 16:10,226ppi)
그래픽 인텔 HD Graphics 5300
플래시 스토리지 256GB(PCIe 기준)
광학 드라이브 없음
LAN 무선 LAN (IEEE 802.11a/b/g/n/ac)
인터페이스 USB 3.1 Type-C 단자(전원 포트 겸용), Bluetooth 4.0
카드 슬롯 없음
사운드 내장 스테레오 스피커, 헤드폰 단자, 내장 듀얼 마이크
사이즈/중량 폭 280.5×두께 196.5×높이 3.5~13.1mm/920g
OS OS X 요세미티(Yosemite)



새로운 맥북(이하 MacBook)은 인텔이 2014년 9월 발표한 새로운 CPU 브랜드 "Core M"이 탑재돼 있다. 이는 개발 코드 네임 "Broadwell-Y"로 불렸던 것으로 TDP(열 설계 전력)이 4.5W로 매우 전력 효율이 좋은 것이 특징이다. 발열이 적어 PC 업체들이 Core M을 탑재한 팬리스 노트북이 개발되어 발매되고 있다. 이번에 등장한 새로운 MacBook도 팬리스다.

 

MacBook의 라인업은 이 CPU의 성능과 스토리지 용량의 차이에 따라 모두 3가지 선택으로 나뉜다. CPU는 하위에서 동작 주파수가 1.1GHz, 1.2GHz, 1.3GHz(단, 최상위 1.3GHz는 애플 스토어의 CTO에서만 선택 가능)에서 플래시 스토리지의 용량은 하위 모델만 256GB로 나머지는 512GB이다.


애플은 탑재 CPU를 세부적으로 밝히진 않았지만 이번에 테스트할 수 있는 1.1GHz 모델의 경우 후술 하는 벤치마크 결과에 의하면 "Intel Core M-5Y31" 이었다. 이는 기본 동작 주파수가 900MHz의 것으로 애플은 cTDP(소비 전력을 올리기)에 의한 정격보다 높은 작동 주파수로 동작하는 것 같음에도 불구하고 팬리스를 실현할 수 있는 것은 그만큼 MacBook 배열의 효율이 좋다는 것일까.

 

다만 cTDP는 처리 속도가 높아지는 반면 소비 전력도 오르기 때문에 배터리 구동 시간 등이 불리할 수가 있다. 3월 미디어 행사에서 애플은 MacBook의 바디 내에 턱을 만들어 빈틈없이 배터리를 좁혀 기존 기술에서 내장 가능한 용량보다 35% 큰 배터리 용량을 실현했다고 설명하고 있었지만 그것에는 이러한 이유가 있는 것 같다.


또한 하위 모델과 상위 모델은 CPU와 스토리지 이외는 공통 사양이 되어 있으며 모두 표준으로 8GB의 메모리를 탑재하고 있다. 그래픽은 CPU가 내장된 Intel HD Graphics 5300. 액정 디스플레이는 12형의 Retina 디스플레이로 해상도는 2304×1440 픽셀이다(스케일링 해상도는 1440×900,1280×800,1024×640).


 

 

신형 MacBook은 해상도가 2304×1440픽셀의 12형 레티나(Retina) 디스플레이를 탑재한다


인터페이스는 USB 3.1 Type-C 단자와 헤드폰 단자가 각각 1기. 또 USB 3.1 Type-C 단자는 전원 단자와 겸용이다. 이 밖에 표준적인 USB 단자와 영상 출력 단자 등은 탑재하지 않아 주변 기기를 사용하려면 별매의 어댑터가 필요하다. 꽤 대담한 사양이지만 애플은 iMac에서 플로피 디스크 드라이브를, MacBook Air에서 광학식 드라이브를 다른 업체에 앞서서 버린 바 있다. 이번에도 USB 3.1 Type-C의 보급에 상당히 자신을 갖고 있는 것이다.


 

본체 왼쪽 측면에는 USB 3.1 Type-C 단자만이 탑재되고 있다

 

본체 우측면에는 헤드폰 단자와 듀얼 마이크로폰이 탑재되고 있다


본체 크기는 최후부 13.1mm, 중량 920g으로 Mac사상 최박, 최경량이다. 몸통 중앙에서부터 끝까지 날씬해져가 디자인 때문인지 스펙보다 훨씬 얇아 보인다. 그러나 알루미늄 유니 바디 때문에 강성은 높아 일반적인 사용에서 휘어지는거나 틀어지지 않을 것이다.


 

최후부 13.1mm, 최박부 3.5mm로 매우 날씬한 본체이지만 강도는 높다

 

새로운 MacBook의 본체 전면

 

본체 배면. MacBook Air나 MacBook Pro와 달리 힌지부에 블랙이 없는 본체 색과 같은 색


cTDP에서 정격보다 높은 동작 주파수를 실현 한다지만 MacBook이 채택하고 있는 Core M은 저전력 중시의 CPU로 퍼포먼스는 충분한 것일까? 또 열에 의한 영향은 없는 것일까? 여기에서 여러 벤치 마크를 해보기로 했다. 우선"Geekbench 3"을 사용해 Mac 현행 기종의 CPU 성능을 체크해 보았더니 다음과 같았다.

 

Geekbench 3 벤치 마크 결과. 왼쪽이 32bit, 오른쪽이 64bit


Geekbench 3(32bit)에 의한 벤치 마크 결과
기종 CPU Single-Core Score Multi-Core Score
MacBook Core M(1.1GHz) 2228 4093
MacBook Air 13(Early 2015) Core i5(1.6GHz) 2663 5147
Mac mini(2014) Core i5(2.6GHz) 2937 6119
Geekbench 3(64bit)에 의한 벤치 마크 결과
기종 CPU Single-Core Score Multi-Core Score
MacBook Core M(1.1GHz) 2417 4601
MacBook Air 11(Early 2015) Core i5(1.6GHz) 2924 5804
Mac mini(2014) Core i5(2.6GHz) 3222 6877


이번에는 MacBook Air의 엔트리 모델이나 Mac mini의 중간 모델과 비교해 봤지만 예상 이상으로 건투 하는 것으로 나타났다. 그리고 MacBook의 스코어는 3세대 전의 MacBook Air(Mid 2012) 엔트리 모델에 맞먹는 수치.


다음 "CINEBENCH R15"을 실행해 보았더니 다음과 같았다.


 

 

"CINEBENCH R15"에 의한 벤치 마크 결과


CINEBENCH R15에 의한 벤치 마크 결과

기종 그래픽스 CPU OpenGL점수(fps) CPU스코어(cb)
MacBook Intel HD Graphics 5300 Core M(1.1GHz) 18.59 207
MacBook Air 13(Early 2015) Intel HD Graphics 6000 Core i5(1.6GHz) 27.18 258
Mac mini(2014) Intel Iris Graphics Core i5(2.6GHz) 25.99 273



역시, 그래픽 성능은 조금 차이가 벌어지고 있다. 그러나 MacBook의 18.59fps라는 OpenGL 점수는 1세대 전의 MacBook Air(Early 2014)과 동등한 결과. 결코 퍼포먼스가 나쁜 것이 아니다.

동영상 인코딩에서 고 부하시 발열을 확인

CPU와 그래픽에 대해서는 충분히 실용성을 갖춘 성능인 것으로 나타났으나 역시 궁금한 것이 고 부하시 발열이다. 애플의 공식 사이트에서는 MacBook의 CPU의 소비 전력은 5W라고 적혀 있다. 정격 4.5W 보다 조금 높지만 이는 어떤 영향을 미칠 것인가. 여기서 CPU의 각 스레드를 모두 구동하는 처리를 실행하고 발열의 영향을 점검키로 했다. 구체적으로는 동영상 변환 소프트웨어 HandBrake를 사용해 1시간 정도 연속 4K 동영상을 풀 HD와 720p의 해상도로 변환 해봤다.

 

 

CPU 사용율. 2코어 4스레드를 풀 가동한 상태에서 본체의 발열을 체크했다


그 결과 동영상 인코딩 중에는 MacBook의 이면(키보드의 힌지에 걸친 뒤쪽 부분)은 확실히 열이 있지만 체온보다는 조금 따뜻하다는 정도. 천을 통해서도 희미하게 따스함은 전해져 오지만 장시간 부하를 펼쳤을 경우에도 불쾌하게 느낄 정도는 아니었다. 수중에 있는 MacBook Air 11인치 모델(Mid 2012/Core i7/2.0GHz)과 비교해 봤으나 MacBook Air가 팬을 구동하기 전보다 MacBook은 분명하게 온도가 낮다.

 

MacBook에 1시간 정도 동영상을 인코딩할 때 동영상 변환 속도가 도중에 극단적으로 늦거나 하는 일도 없었다. 적어도 이번 테스트에서는 발열을 줄이기 위해 일시적으로 동작 클럭을 낮추는 일은 없는 것 같았다.

 

또 4K(3840×2160/24fps/4분 46초/2.14GB)의 동영상 소스를 720p(1280×720)로 변환 했을때의 시간은 MacBook이 15분 18초로 MacBook Air 11인치가 12분 14초였다. 비교한 MacBook Air는 2012년 CTO모델로 Core i7(2.0GHz)를 탑재한 것이지만 Geekbench의 스코어는 현행 MacBook Air와 거의 같다.


그것을 생각하면, MacBook은 상당히 분발하고 있다.


초박형 경량 MacBook은 외부에서도 사용할 기회가 많을 것으로 예상된다. 여기서 궁금한 것은 배터리 구동 시간이다. 애플 공식 사이트에서는 "최대 9시간의 무선 인터넷, 최대 10시간 iTunes 영화 재생" 이라고 되어 있지만 실제로는 어떨까?


여기서 조건을 바꾸면서 배터리 구동 시간을 체크 해봤다. 우선, 시스템 환경 설정의 "디스플레이"에서 "휘도"을 25% 정도로 설정. 그 상태에서 로컬로 저장한 1080p의 H.264/AAC 동영상을 전체 화면에서 반복 재생했는데 12시간 36분이 지난 곳에서 강제 슬립이 됐다.

 

다음 "밝기"을 100% 정도로 설정하고 YouTube의 풀 HD 동영상 콘텐츠를 연속 재생했는데 5시간 56분의 구동이 가능했다. 이렇게 높은 부하를 걸어 6시간 이어진다는 것은 상당히 좋은 성적이다. 참고로 밝기 100% 라는 것은 매우 밝고, 일반적으로는 좀 낮춰 사용하게 될 것 이므로 하루 정도는 전원 어댑터를 갖고 다니지 않아도 문제가 없을것 같다.

 

또 부속된 전원 어댑터는 MacBook Air 용 보다 머리 하나는 작은 전원 케이블을 분리하는 것도 가능하다. 매우 컴팩트하고 중량도 실측으로 108g 밖에 안된다. 여행이나 출장시 갖고 가더라도 짐이 안 되는 것이 기쁘다.

 

 

 

전원 어댑터와 USB 3.1 Type-C 코드. 코드는 전원 어댑터에서 탈착 할 수 있다 USB 3.1 Type-C 코드의 커넥터부는 iPhone 등이 채택하고 있는 Lightning 연결기보다 조금 큰 정도의 사이즈

 

MacBook의 전원 어댑터(왼쪽)과 MacBook Air의 전원 어댑터(오른쪽). 한 둘레 작지만 측면의 애플 마크가 없어졌다



최박부 3.5mm, 최후부에서 13.1mm의 신형 맥북(MacBook)은 그 얇음을 실현하기 위해 다양한 고안이 시행되고 있다. 그 하나가 키보드다. 종래의 구조부터 새로운 설계인 접영 구조로 바뀌어 키보드가 얇아 졌다.


키톱은 종전보다 면적이 커지고 있지만 키 스트로크는 매우 얕아지고 있어 처음 타이핑 할 때는 적잖이 위화감을 느낀다. 그러나 클릭감은 확실히 있고 키의 중앙 부근을 밀거나 끝을 눌러도 제대로 입력이 인식되기 때문에 입력 자체는 쉽고, 강한 힘으로 누를 것이 아니라 가볍게 누르면 부드럽게 입력할 수 있다고 생각한다.

 

 

 

MacBook의 키보드. 각 키의 면적이 MacBook Air등 보다 크고 키와 키 사이의 간격이 협소

 

키보드는 백 라이트를 내장하고 있다

 

키 스트로크는 얇지만 클릭감이 있다


개인적으로는 키감이 상당히 마음에 들었지만 키보드는 평가가 나뉘기 쉬운 부분이기도 하기에 사람에 따라서는 생소할지도 모른다. 구입을 검토하고 있다면 사전에 매장 등에서 사용해 보는 것을 추천한다.

감압 터치 트랙 패드

키보드와 마찬가지로 트랙 패드도 새로운 설계가 채용되고 있다. 기존에는 트랙 패드 전체가 단추로 되어 있고 아래로 내려가면서 밀어넣는 형태였지만 MacBook의 경우 압력 감지 기능과 촉각 피드백에 의해 유사하게 조회감을 재현하고 있다. 정말 아래 방향으로 누르는 느낌이 있어 처음 만졌을 때는 약간의 감동이 있었다. 매장에서 테스트 기회가 있으면 꼭 트랙 패드를 만져 보라.

 

 

트랙 패드는 리얼한 클릭감이 있다

USB 3.1 Type-C 단자

하나 더 당활 할 요소가 인터페이스다. 주변 기기와 접속에 사용하는 데이터 전송용 단자가 현 시점에서는 별로 보급되지 않은 USB 3.1 Type-C 하나로 그 자체로는 기존 USB 기기를 연결할 수 없다. 또 USB 3.1 Type-C 단자가 전원 커넥터를 겸하고 있기 때문에 충전 중에는 단자가 막혀 주변 기기를 사용할 수 없다.

 

 

USB 3.1 Type-C 단자


여기서 애플은 옵션으로 3종류의 어댑터를 준비하고 있다. 하나가 "USB-C-USB 장치"로 MacBook에 기존 USB 기기를 접속할 수 있다. 또 하나는 "USB-C VGA Multiport 장치"로 USB 기기와 충전 케이블, VGA 대응의 외장 디스플레이와 프로젝터를 연결할 수 있다. "USB-C Digital AV Multiport 장치"는 USB 기기와 충전 케이블, HDMI 대응의 외장 디스플레이 등에 접속이 가능하다.


 

옵션 "USB-C-USB 장치". MacBook에 기존 USB 기기를 접속 "USB-C VGA Multiport 장치". USB 기기와 충전 케이블, VGA 대응의 외장 디스플레이와 프로젝터를 연결할 수 있다

 

"USB-C Digital AV Multiport 장치". USB 기기와 충전 케이블, HDMI 대응의 외장 디스플레이 등에 접속이 가능하다


이번에는 이들 3종류의 어댑터도 테스트할 수 있어서 실제로 "USB-C Digital AV Multiport 장치"를 사용해 MacBook을 HDMI 디스플레이에 연결 해봤다. 그리고 충전하면서 외장 디스플레이와 USB접속의 HDD를 써 봤지만 별 문제 없이 안정되게 동작하고 있었다.

 

 

MacBook의 USB 3.1 Type-C 단자에 "USB-C Digital AV Multiport 장치"를 장착


또 MacBook의 내장 디스플레이와 외장 디스플레이를 미러링이 가능하여 메뉴바의 미러링 옵션에서 데스크탑 크기를 외장 디스플레이에 맞추거나 내장 디스플레이에 맞출지를 선택할 수 있다.

 

 

디스플레이 미러링은 데스크탑 크기를 외장 디스플레이나 MacBook 내장 디스플레이 하나로 설정할 수 있다


가령 풀 HD의 외장 디스플레이에 맞춘 경우는 MacBook의 내장 디스플레이도 덩달아 풀 HD로 된다. 스캘링으로 표시 자체는 예쁜 것이지만 역시 12인치 화면에서 풀 HD는 표시가 너무 섬세하고 작은 것이 있었다.

 

주변 기기를 사용할때 일일이 어댑터가 필요하게 되는 것은 귀찮지만 충전 케이블과 외장 디스플레이, 자주 사용하는 주변 기기를 어댑터가 있는 채로 두면 한 단계에서 MacBook에 이러한 기기를 접속할 수 있다. 집에서는 노트북을 외장 디스플레이에 연결하고 싶은 사람이라면 독립된 영상 출력 단자를 갖는 노트보다 MacBook& 어댑터가 오히려 쓰기 쉬울지도 모른다고 느꼈다.


새로운 MacBook의 구입을 검토했을때 큰 관문이 될 것 같은 것이 가격이다. 다만 각 제품의 구성을 살펴보면 꼭 비싼 것은 아니다. 예를 들어 MacBook Air 13인치는 메모리가 4GB 밖에 탑재되지 않고 액정 표시 장치도 Retina가 아니다. 13인치 MacBook Pro Retina 디스플레이의 엔트리 모델은 플래시 스토리지가 128GB다.

 

그것에 비해 MacBook은 하위 모델에서도 메모리가 8GB, 플래시 스토리지가 256GB 다. 그 스펙의 차이와 인터페이스 주변의 사양, CPU 성능을 어떻게 보느냐에 따라서 코스트 퍼포먼스의 평가는 엇갈릴 것이다. 용도, 예산, 필요성 등을 고려하면서 곰곰이 생각해 보기 바란다.


 

 

MacBook은 하위 모델에도 메모리가 8GB, 플래시 스토리지 용량이 256GB. 그 스펙의 차이와 인터페이스 사양, CPU 성능을 어떻게 보느냐에 따라서 코스트 퍼포먼스의 평가는 엇갈릴 것.


출처 - http://ascii.jp/elem/000/001/001/1001347/index-6.html

반응형
Posted by 랩터 인터내셔널
블루진(BlueGene)계열에 대한 언급 중 슈퍼 컴퓨터의 계보는 다시 ASC 계열로 돌아간다. 기념할 만한 연재 300회를 맞는 이번에는 ASCI Q의 치환 때문에 IBM이 개발한 로드러너(RoadRunner)다.

 

세계 최초로 1PFLOPS에 도달한 컴퓨터 "RoadRunner"

 

노드수도 동작 주파수도 한계, 후계기 마련에 다가선 한계 

어스 시뮬레이터와 BlueGene/L이라는 2제품의 성공은 ASC 계열을 생각하는데 큰 과제를 남겼다.

 

우선 첫번째는 노드 간 접속 레이턴시의 문제다. ASCI 계열만 보고 있으면 SMP(Symmetric Multiprocessing:대칭형 다중 프로세싱)+클러스터 방식이 안 된다고 생각하지만 어스 시뮬레이터도 초대 시스템은 640노드를 1단 크로스 바로 연결한 거대한 SMP+클러스터 구성이다.

 

그럼에도 불구하고 이 어스 시뮬레이터가 높은 성능을 발휘한 이유의 하나는 원래 프로세서가 벡터 방식으로 250MHz로 낮은 동작 주파수에서도 8GFLOPS의 성능을 얻고 있어 전체 성능을 벌어들였던 것이지만 다른 하나는 노드 간 접속이 아주 고속이었던 것이다.


이는 일단 크로스 바를 사용한 데 따른 것이지만 여기서 크로스 바를 쓴 것은 노드 수가 640개로 적은데 따른 것이다. 후기형 어스 시뮬레이터는 노드 수가 5120개로 늘어나면서 크로스 바를 포기하고 2단 구성의 크로스 바에서 Fat Tree를 구성한다는 ASCI Q를 방불케 하는 구성이다.

 

즉, 노드 수가 늘어나면 레이턴시가 늘어난다는 당연하다고 말할 수 있는 결과다.


또 다른 하나는 범용 프로세서의 한계다. BlueGene/L은 듀얼 FPU로 700MHz 구동으로 2.8GFLOPS를 실현했고 합계 360TFLOPS의 머신을 구축할 수 있었지만 이것으로 1PFLOPS가 가능한가 하면 3배의 노드수로는 노드 간 통신의 레이턴시가 어려운 일이다.

 

즉 midplane의 수가 128개에서 384개가 될 것인데 이를 프로그램에서 사용하기는 꽤 어려울 것이며 1개의 midplane의 노드 수를 늘리는가 하면 이번에는 midplane 내 레이턴시가 부쩍 늘어날 것이다.

 

여기서 동작 주파수를 3배로 높인다고 할 수 있지만 그 경우 소비 전력이 아마 10배를 넘어 Blue Gene/L의 높은 실장 밀도는 이룰 수 없다.


CRAY-2 수준으로 냉각액에 모두 담그는 정도의 방열 대책 마련이 필요하기 때문에 성능/소비 전력비가 엄청나게 떨어진다.

 

이러한 이야기는 2004년경부터 본격적으로 나오고 있는 것으로 1노드 당 성능을 올리는게 제일 편하다는 당연한 이야기가 됐다. 다만 동작 주파수는 이제 한계가 드러나고 있던 터라 이는 방법론으로서는 좋지 않다.


 

 

동작 주파수의 추이. 출처는 2007년 로스앨러모스 국립 연구소의 John A. Turner가 발표한 "Roadrunner:Heterogeneous Petascale Computing for Predictive Simulation" 이라는 논문. 원 데이터가 Tom's hardware guide. 이후로 작동 주파수는 계속 달리고 있지만 2015년 현재는 4GHz 근처에서 포화. 이를 넘어선 제품을 내는 것은 IBM 뿐이다


여기서 멀티 코어라고 말하면 이쪽은 반도체 제조 기술과의 약속이 되는 셈이지만 코어 수를 늘리면 코어 간의 동기가 문제가 되어 이쪽도 무진장으로 늘릴 수만 있는 것도 아니다. 거기서 Heterogeneous Architectures를 이용한다는 것이 ASC의 결론이었던 것 같다.

 

Heterogeneous(헤테로지니어스)로 활로를 찾는

당시는 또 Heterogeneous로 불릴 것은 3개밖에 없었다. 우선은 인텔이 연구 개발의 일환으로 발표한 80코어의 프로토 타입, 그리고 GPGPU로 이용할 수 있게 된 GPU, 다른 하나가 Cell이다.


 

인텔이 발표한 80코어의 개요. 이 80코어 CPU 1개에서 1.8TFLOPS이므로 555개를 나열하면 계산상은 1PFLOPS가 실현된다 GPU를 연산에 이용하는 이점.다만 2006년이라고 하면 아직 NVIDIA가 G80 코어(GeForce 8800 세대)에서 CUDA을 이용할 수 있게 된 직후인 당시로 성능도 미흡하고 배정밀도 부동 소수점은 다루지 않았다


우리는 알고 있듯이 Cell프로세서는 SCE의 PlayStation 3을 위해서 SCE-소니 IBM, 도시바가 공동으로 개발한 프로세서로 64bit의 PPE(PowerPC Processor Element)로 불리는 범용 프로세서에 SPE(Synergistic Processor Element)라 불리는 서브 프로세서×8을 조합한 것이다.


 

Heterogeneous의 신성 Cell 프로세서.


PPE 자체는 별로 성능이 높지 않고 주로 SPE 관리 등에 전념하는 형태로 연산 자체는 SPE이 주체로 하는 것이 일반적이었다.


이 SPE는 단정밀도 부동 소수점 연산이면 1개당 25.6GFLOPS에 이를 7개 이용함으로써 179.2GLOPS의 연산 성능을 발휘했다.

 

그리고 왜 7개인가는 8개의 SPE 중 1개는 무효화되고 있어(이는 수율 개선 때문)만일 8개로 유효하게 하면 204.8GFLOPS가 되는 계산이다.

 

추가로 만일 PPE도 풀로 연산을 시켰을 경우의 피크 성능은 230.4GFLOPS가 되는 계산이지만 여기까지 성능이 나오지는 못한 모양이다.



 

ASC Project가 선택한 것은 AMD 옵테론과 셀(Cell)


ASC Project는 최종적으로 이 Cell을 기반으로 한 Heterogeneous의 시스템을 구축하는 계약을 2006년 9월에 IBM과 맺었다. 계약은 3단계로 나뉘며 이하의 3단계로 시스템을 납품하게 됐다.


Phase 1: Opteron 프로세서를 이용한 Base System
Phase 2: Opteron에 Cell을 조합한 부분적인 실증 시스템
Phase 3: Opteron+Cell의 완전한 시스템

왜 IBM이 자신들의 Power/PowerPC, 인텔의 CPU를 사용하지 않고 AMD의 Opteron을 선택한 것인가 하면, 2006년 당시에 IBM은 POWER 5+인데 작동 주파수는 2.3GHz 정도로 절대적인 연산 성능은 높았으나 소비 전력도 컸다.


한편 인텔은 작동 주파수가 더 높은 Dempsey/Tulsa 세대를 이때 투입했으나 이는 Ceder Mill기반 코어로 작동 주파수는 몰라도 성능은 낮았다.

 

원래 Opteron 코어는 나중에 등장하는 Cell에 대해 데이터 분배를 하는 역할이어서 반드시 높은 성능은 불 필요하고, 오히려 I/O의 산출량 및 저전력이 요구되는 덕목이었다.

 

이점에서 Hyper Transport Link를 사용하고 I/O을 확장할 수 있는 Opteron 계열은 칩셋 경유로 I/O에서 인텔과 IBM 프로세서보다 오히려 뛰어나다는 판단을했다고 생각된다.

 

실제로 로스앨러모스 국립 연구소에 설치된 RoadRunner에 이용된 것은 1.8GHz 구동의 "Opteron 2210"이었다.

 

그런데 Phase 1에서 납품된 것은 LS21과 Expansion blade의 구성(아래 그림)이다. LS21은 얇은 블레이드 구성 2P 서버로 실제로는 그림보다 좀 더 복잡하다. Hyper Transport Tunnel로 사우스 브리지도 탑재, 이에 다양한 주변 회로나 기동용 SAS HDD 등도 이용이 가능하지만 일단 그림에서는 생략하고 있다.


얇은 블레이드 구성 2P 서버 "LS21". IBM BladeCenter LS21/LS41의 Installation and User's Guide에서 발췌


LS21과 Expansion blade의 구성


이에 조합하는 형태로 Expansion blade라고 불리는 것이 역시 같은 사이즈로 포개졌다. 이쪽의 내용은 2개의 Opteron 앞에 2개의 Hyper Transport Link x16을 커넥터 경유로 연결, 그 앞에 Broadcom의 "HT2100"이라는 Hyper Transport/PCI Express 브리지에 접속하고 있다.


"HT2100"는 원래 ServerWorks가 발매하고 있던 것으로 2001년에 Broadcom이 회사를 인수, 이 당시는 Broadcom의 제품으로 제공되고 있었다.

 

구조는 아래의 사진6 처럼 x16의 Hyper Transport Link에서 CPU와 접속하고 여기서 5ch, x24레인의 PCI Express Gen 1레인을 출력한다는 것이다.

 


Broadcom의 "HT-2100"의 카탈로그에서 발췌. 실제로 HT-2100 외에 HT-1100 사우스 브리지도 존재했지만 이는 RoadRunner에서는 사용되지 않았다



Expansion blade자신은 이를 3ch의 x8 레인이라는 구성으로 이중 2개는 이 다음에 나오는 QS22에 접속, 나머지 하나는 온보드 슬롯에 접속된다. 이 슬롯은 본래 2본분이 있는데 한쪽은 Infiniband 4x DDR 보드가 장착되어 외부의 직물에 접속되고 다른 쪽은 단순히 미사용.

 

여기서 Phase 2/3에서 어떤 구성으로 된 것인가?라는 것이 아래 그림이다. 위 절반은 Phase 1과 같지만 미사용이였던 4개의 PCI Express x8 레인의 끝에 4개의 PowerXCell 8i가 IBM 사우스 브리지 경유로 접속한다. 이 2개의 Opteron 프로세서와 4개의 "PowerXCell 8i"를 조합하는 것으로 한개의 노드를 구성했다.

 


Phase 2와 Phase 3 구성



 

배정밀도 부동 소수점 연산을 할 수 있는 Cell, 그것이 "PowerXCell 8i"


"PowerXCell 8i"는 65nm Cell의 배정밀도 부동 소수점 연산 확장판이다. 먼저 SPE는 1개당 25.6GFLOPS라는 수치를 기록하고 있지만 이는 단정밀도의 경우로 배정밀도는 1.8GFLOPS에 불과했다.


요컨대 단정밀도 부동 소수점 연산밖에 고려하지 않아 배정밀도라면 극단적으로 성능이 떨어진다. 이래서는 과학 기술 계산에는 사용할 수 없다. 거기서 배정밀도 부동 소수점 연산 능력을 강화한 것이 PowerXCell 8i.

 


"PowerXCell 8i"의 개요.  "PowerXCell와 선형 계산"에서 발췌. eDP와 X2D/DDR2 컨트롤러 때문에 전체의 코어 크기가 좀 더 넓어진

 통상 Cell의 차이점은 2가지다.


각 SPE에 새로 eDP(enhanced Double Precision)유닛을 추가하고 배정밀도 부동 소수점 연산에서 SPE 1개당 12.8GFLOPS의 연산이 가능토록 했다.메모리 컨트롤러의 X2D(XIO to DDR2)브리지를 추가하고 DDR2 메모리 컨트롤러를 탑재했다.

2번째는 원래 Cell은 아시다시피 XDR DRAM을 탑재한다. 이는 대역이 25.6GB/초로 고속 메모리 용량은(XDR DRAM에 한해서)256MB 밖에 없어 역시 이것은 과학 기술 계산에는 불 충분하다.

 

그렇다고 XDR DRAM 그대로 용량의 증가는 어렵다. 대용량의 XDR DRAM은 존재하지 않으며 XDR DRAM의 구성상 메모리 확장성이 한정됐기 때문이다.

 

거기서 XDR DRAM용 XIO라는 I/F에 DDR2와 프로토콜 변환을 하는 X2D는 브리지를 경유하여 DDR2 DIMM을 장착하도록 했다. 전송 성능이 다소 낮아지더라도 탑재할 수 있는 메모리 용량을 대폭 늘릴 수 있게 됐다(이론상 칩당 16GB).

 

이 PowerXCell 8i를 2개 탑재한 블레이드가 "QS22"로 불린다. IBM은 한개의 이용에 대비하고, PowerXCell 8i 근처에 풍부한 회로를 구현했지만 RoarRunner는 주변 회로는 거의 이용되지 않고 또 DIMM 용량도 PowerXCell 8i 1개당 4GB다.


"QS22"의 개요. 이쪽에서 직접 Infiniband HBA 및 GbE에서 접속이 가능한 구성이다


내부는 아래 사진처럼 되어 있다. RoadRunner는 3종류 4개의 블레이드를 만들어 1노드로 했다.



"QS22"의 사진. 중앙의 구리 히트 싱크 밑에 PowerXCell 8i가 위치한다. 이하의 출전은 "Roadrunner:Hardware and Software Overview"(IBM Redbook) 발췌 RoadRunner는 3종류 4개의 블레이드를 만들어 IBM은 이를 "TriBlade"라 밝혔다


노드 당 성능은 PowerXCell 8i의 SPE만을 사용한 경우 409.6GFLOPS, PPE도 참여시키면 435.2GFLOPS다. 또 Opteron에도 만일 계산을 시켰다면 이론상으로는 14.4GFLOPS 정도가 추가 되지만 역시 여기까지 쓰는 경우는 없었다.

 

PPE코어도 계산에 맞추면 SPE코어의 제어가 늦고 프로그래밍이 어려운 것도 있어 오직 SPE에서 계산하고, PPE는 SPE제어 Opteron은 데이터 입출력 등에 전념한 형태다.

 

일단 1개의 Opteron 코어로 1개의 PowerXCell 8i가 짝을 이루고 메모리도 코어 주변 4GB에 갖춘 것은 이 근처를 프로그래밍에서 쉽게 다룰 수 있도록 하겠다는 배려로 생각한다.

 

랙 하나에는 이 TriBlade가 12개 인입되고 이것이 1개로 4915.2GFLOPS로 약 5TFLOPS이므로 이것을 200개 늘어놓으면 1PFLOPS.

 


랙의 구조. 하얀 블레이드는 미사용 슬롯으로 보인다


실제로는 Compute Rack와 I/O+Compute Rack, 그리고 Switch&Service Rack 16개로 1개의 Connection Unit이라고 불리는 그룹을 형성했다.



Connection Unit 구성. I/O에는 IBM의 X3655가 이용됐다. 이는 Opteron 2218을 듀얼로 탑재하는 블레이드에서 RAIO 컨트롤 등도 탑재한다


1개의 Connection Unit에는 180개의 TriBlade(=노드)가 장비된 것으로 Connection Unit당 73.7TFLOPS 정도가 된다.

 

이 1개의 클러스터 인당 1개 288포트 Infiniband Switch가 탑재되면서 Connection Unit 내의 노드는 1hop으로 다른 노드와 연결된다. 참고로 288포트 중 180포트는 직접 각 노드에 12개는 I/O 노드에 연결되고 나머지 96포트가 상위 스위치에 연결된다.

 


이는 Roadrunner Technical Manager의 Ken Koch씨의 논문 "Sweep3D(Sn transport)&other key Roadrunner applications"에서 발췌. 노드 수가 많은 것은 I/O 노드도 포함하고 있기 때문.(180 TriBlade+12 I/O)×18=3456


Infiniband 자체는 x4 DDR이므로, 신호 속도 자체는 20Gbps인데 Embedded Clock을 사용하기 위한 실질적인 데이터 전송 속도는 16Gbps이다.

 

Connection Unit은 모두 18개로 이 Connection Unit들은 8대의 Infiniband Switch에서 상호 접속되지만 각각의 Connection Unit과 Switch 사이는 12링크로 연결되는 Fat Tree로 구성되어 있다. 피크 성능 1.3PFLOPS를 넘는 시스템이 이것으로 완성된 형태다.

 

 

실효 성능으로 1PFLOPS을 넘겨

시스템은 2008년 5월 뉴욕에 있는 IBM의 공장에서 풀 시스템으로 생산되고, 그 후 뉴 멕시코 로스앨러모스 국립 연구소에 여름 쯤에 납품됐다. 이 공장에서 생산된 시점에서 실효 성능으로 1PFLOPS을 넘겨 2008년 6월 TOP500에서 BlueGene/L를 넘어서고 No.1를 차지했다.

 

로스앨러모스 국립 연구소에 납품 후에는 약간의 성능 개선을 달성해 2009년 6월까지 TOP500에서 1위 자리를 지켰다.

 

그 후로는 다소 구성을 바꾼 상태로 운용된 것 같지만 2012년 11월 시점에서도 아직까지 22위에 랭크되어 있는 것은 절대 성능이 꽤 강력한 머신이었던 것은 틀림 없다.

 

효율은 이론 성능의 1375.8TFLOPS에서 실효 성능 1042.0TFLOPS로 76%에 가까운 것으로 나쁘지 않다. 1042TFLOPS에서 소비 전력은 2345KW로 성능/소비 전력비는 444.3KFLOPS/W로 이쪽도 뛰어나게 좋은 숫자였다.

 

하지만 이후 등장한 HPC 머신은 더 좋은 성능/소비 전력비를 실현했기 때문에 로드러너(RoadRunner)의 소비 전력은 과거로 여겨졌다.

 

실제로 2012년 11월 TOP500을 보면 RoadRunner에 이어23위의 머신인 에든버러 대학에 놓인 BlueGene/Q 베이스의 DiRAC는 1035.3TFLOPS를 불과 493KW로 실현하고 있다. 결국 이 소비 전력이 걸림돌이 되어 2013년 3월말에 RoadRunner의 가동은 종료됐다.

 

참고로 IBM은 이 PowerXCell 8i를 확장한 원칩으로 TFLOPS를 실현할 수 있는 CPU를 계속 개발하고 있었다. 구체적으로는 PPE× 2+SPE× 32의 "PowerXCell 32ii", 그리고 PPE× 4+SPE× 32의 "PowerXCell 32iv"로, 최종적으로 이들 프로세서는 세상에 나가지 못하고 사라졌다.

 


출처 - http://ascii.jp

반응형
Posted by 랩터 인터내셔널