'글로벌 IT 뉴스'에 해당되는 글 1093건

  1. 2015.09.15 스카이레이크의 저전력 기술 스피드시프트(SpeedShift) by 랩터 인터내셔널
  2. 2015.09.15 세계 웨어러블(스마트워치) 점유율 by 랩터 인터내셔널
  3. 2015.09.15 ASUS, 트라이 밴드 11ac 라우터 RT-AC3200 발매 by 랩터 인터내셔널
  4. 2015.09.15 미국에서 NFC 결제 서비스 안드로이드 페이 시작 by 랩터 인터내셔널
  5. 2015.09.15 애플 아이폰6S 판매량, 중국-일본에서 초도 물량 매진 by 랩터 인터내셔널
  6. 2015.09.15 낸드플래시보다 1000배 빠른 인텔 3D XPoint by 랩터 인터내셔널
  7. 2015.09.15 IPC가 40% 향상된 AMD Zen과 로드맵 by 랩터 인터내셔널
  8. 2015.09.15 애플 맥북 리뷰 by 랩터 인터내셔널
  9. 2015.09.15 슈퍼컴퓨터 역사> 최초의 1PFLOPS를 달성한 IBM 로드러너 by 랩터 인터내셔널
  10. 2015.09.15 슈퍼컴퓨터 역사> 발군의 성능으로 잘 팔린 IBM 블루진(Blue Gene/L) by 랩터 인터내셔널

인텔은 IDF15의 테크니컬 세션에서 6세대 Core 프로세서(개발 코드 네임:스카이레이크)의 마이크로 아키텍처에 관한 설명을 진행했다. 그 중 특히 모바일 PC 사용자들이 주목 할 만한 새로운 저전력 기술 "Intel SpeedShift Technology"(이하 SpeedShift)가 소개됐다.

 

Haswell/Broadwell세대에서는 아이들시(C스테이트)소비 전력 절감

현대의 마이크로 프로세서의 소비 전력을 말할때 CPU가 어떻게 돌아가는지 이해할 필요가 있다. 마이크로 프로세서에는 크게 액티브 모드와 아이들 모드가 있다. OS가 동작하고 있어 CPU가 뭔가 처리되고 있을때 액티브 모드가 된다.

 

PC/AT호환기의 전력 동작을 규정하고 있는 ACPI(Advanced Configuration and Power Interface)의 규격에서 이 액티브시 상태를 "P스테이트"라고 정의하고 있다. OS나 어플리케이션이 일시 정지(아이들)상태에 있는 모드에서는 C스테이트가 된다. 마이크로 프로세서는 P스테이트(액티브)와 C스테이트(아이들)을 반복하며 필요에 따라 동작함으로써 소비 전력을 최소화하게 된다.


인텔은 4세대 Haswell에서 C스테이트의 전력 절감을 실현하는 개량을 하고 있다. 종래는 C0~C6까지 밖에 없었던 C스테이트를 확장해 C7~C10으로 불리는 더욱 저전력 아이들 스테이트를 추가했다. C7~C10에서는 종래에는 못한 칩셋의 전력 관리를 보다 세세하게 컨트롤 하는 등의 기능이 추가되어 아이들시 소비 전력 절감이 실현됐다. PC가 작동하고 있을때 대부분의 OS는 아이들 상태가 되고 마이크로 프로세서는 C스테이트로 이행하므로 Haswell과 5세대 Broadwell에서는 이전 세대와 비교하여 보다 장시간의 배터리 구동이 실현됐다.

 

액티브시(P스테이트)전력 절약 관리를 담당했던 것은 15년전에 등장한 SpeedStep

이에 비해 스카이레이크 세대는 Haswell/Broadwell세대에서 실현된 C스테이트의 전력 절약 외에 P스테이트의 전력 절약 확장이 시행된다.

 

지금까지 인텔의 마이크로 프로세서에서 P스테이트의 전력 절약 관리를 해온 것은 Intel SpeedStep Technology(이하 SpeedStep)이라 불리는 기술이다. SpeedStep은 간단하게 말하면 클럭 주파수와 구동 전압을 동적으로 바꾸면서 소비 전력을 절감하는 기능이다. 마이크로 프로세서의 소비 전력은 클럭 주파수에 비례하고, 구동 전압은 2제곱에 비례적으로 늘어난다. 그래서 클럭 주파수와 구동 전압 양쪽을 내리는 것이 전력을 절감하려면 가장 좋다고 할 수 있다.

 

그러나 전압을 올리지 않으면 클럭 주파수도 오르지 못하며 성능을 올리면 전력이 늘어날 것이다. 거기서 성능이 필요 없는 상황에서 구동 전압과 클럭 주파수를 낮춰 동작시키고 성능이 필요할때는 구동 전압과 클럭 주파수를 올려 동작시킴으로써 성능과 전력 절약의 균형을 취할 수 있다. 이것이 SpeedStep의 기본적인 생각이다.

 

1999년에 발표된 최초의 SpeedStep은 AC어댑터의 유무로 상위 클럭/전압, 하위 클럭/전압을 전환하겠다는 단순한 것이었다. 그 후 2001년에 투입된 130nm로 미세화된 Pentium III프로세서(개발 코드 네임:Tualatin)에서는 Enhanced Intel SpeedStep Technology(EIST)로 불리는 진화버전이 투입됐다. EIST에서는 최고와 최저라는 2가지 포인트만 아니라 클럭/전압을 다단계로 전환되게 되고 트리거로 AC어댑터의 유무뿐 만 아니라 CPU에 걸리는 부하에 맞춰 변환이 가능하게 됐다.


기본적으로 그 후 발매된 인텔의 마이크로 프로세서는 EIST가 P스테이트에 있을때 전력 절약 기능으로서 이용되어 왔다. 다만 그 뒤에도 기능의 확장이 이뤄지지 않은 것은 아니다. 구체적으로는 Nehalem세대에서 도입된 Intel Turbo Boost Technology는 일종의 EIST의 확장과 다름없다. Turbo Boost는 시스템이 식어 있고 열 설계에 여유가 있는 상태일때 규정의 가동 보증 주파수를 넘는 클럭 주파수/전압으로 올리는 기능이다. 즉, EIST가 전력 절감을 위한 기술인 반면 Turbo Boost은 그 반대로 성능 향상에 사용한다는 것이다. 그러한 확장은 있었지만 전력 절약 기능이라는 관점에서 생각하면 기본적으로 1999년에 도입된 SpeedStep이 그대로 이용되어 왔다.


 

01_s.jpg
SpeedStep Technology의 생각. P스테이트에서 클럭/전압을 CPU의 부하에 맞추어 단계적으로 변화시킴으로써 전력 절약을 실현하고 있다. 푸르게 표시된 것이 Turbo Boost의 도입으로 확장된 부분

 

마이크로 프로세서에 내장된 PCU에 의해 자동 제어되는 SpeedShift

그런 P스테이트의 전력 절약 기능을 대폭 확장하는 것이 스카이레이크로 투입된 스피드시프트(SpeedShift)다. 종래의 EIST가 OS를 포함한 소프트웨어 측이 제어를 하겠다는 것으로 실현된 반면 스피드시프트는 클럭 주파수/전압의 변동을 하드웨어가 내부 알고리즘에 기초하여 제어한다.

 

인텔의 마이크로 프로세서는 PCU(Power Control Unit)로 불리는 전원 관리 하드웨어를 갖고 있으며 스카이레이크는 이 PCU가 원래 마련된 알고리즘에 기초하여 자동적으로 CPU의 주파수와 전압을 관리한다. 구체적으로는 최고 주파수(기존 Turbo Boost시 최고 클럭), 가동 보증 주파수(기존의 기준 클럭), 최적 전력 주파수(Pe라고 불리는 자동차 엔진의 가장 연비가 좋은 회전 수 같은 것이라고 생각하면 된다), 최저 주파수 등이 정의되고 그 중간 주파수에 설정할 수도 있다.


 

03_s.jpg
최근 인텔의 마이크로 프로세서에는 PCU가 내장되어 있으며 PCU가 모든 것을 조절


스카이레이크의 PCU는 정해진 알고리즘에 기초하여 계산하며 어플리케이션이나 워크 로드를 통한 다른 최적의 전력 주파수를 찾으면서 필요에 응해 최고 주파수로 올리거나 가동 보증 주파수로 설정, 최적 전력 주파수로 설정하는 것을 자동으로 한다. 또한 최저 주파수는 스카이레이크 세대의 경우에는 100MHz다.

      

04_s.jpg
스피드시프트는 소비 전력 및 성능의 최적의 밸런스를 PCU가 계산하면서 동작


이 자동 컨트롤 기능은 OS측에서 오프라인으로 할 수 있다. 그 경우 기존의 SpeedStep과 마찬가지로 OS측에서 CPU부하 등을 체크하면서 주파수의 등락을 요청할 수 있다. 혹은, OS측에서 이 정도의 전력 절약화를 해달라는 등의 리퀘스트를 보내겠다는 구조도 준비되어 있다.

 

PCU에서 자동 컨트롤을 할 경우의 장점은 기존의 Turbo Boost로 관리된 부분도 포함하여 최저 주파수에서 최고 주파수까지 들어가 조절할 것이다. 이로써 필요에 응한 성능을 향상시킬 수 있으며 OS의 응답성을 개선하거나 최적 전력 주파수 부근에 최대한 접근할 수 있도록 하고, 기존보다 효율적인 전력 관리가 될 것이다.


 

02_s.jpg
스피드시프트는 Turbo Boost의 영역을 아우르면서 CPU가 들어가게 조절할 수 있다.모든 것은 CPU내부에서 완결하므로 보다 효율적으로 이용할 수 있다

 

Windows 10의 장래 업데이트에서 이용 가능하게, Windows 10+스카이레이크에서 새로운 장시간 배터리 구동이 실현된다

이 스피드시프트를 이용하려면 OS측의 실장이 필요하다. 인텔에 따르면 Windows 10의 스피드시프트 구현을 현재 Microsoft와 협력하고 있는 단계다. 가까운 장래에 나올 예정인 Windows 10의 업데이트 등에서 구현된다. 또 리눅스도 현재 리눅스 커뮤니티와 협력하여 개발하고 있다고 밝혔다.

 

IDF에서 열린 테크니컬 세션에서 벤치마크 결과도 제시하여 WebXPRT15와 TabletMark3 같은 벤치마크 테스트에서 처리 능력은 상승하는데 소비 전력은 떨어진다는 결과가 나온다고 한다.


 

05_s.jpg
IDF의 테크니컬 세션에서 제시된 SpeedShift를 활성/비활성와 한 경우의 벤치마크 편차. WebXPRT15에서는 성능이 향상되고 소비 전력도 줄어든 것으로 확인됐다. 한편 사용자에 따라서는 거의 변하지 않을 수도 있다.


2-in-1디바이스, 혹은 초박형 노트 PC를 이동형으로 쓰는 사용자에게는 조금이라도 편안하고 오랜 시간 배터리를 사용하고 싶은 희망이 있다. Haswell로 새 C스테이트의 추가 등으로 그 희망은 많이 실현되었다고 말할 수 있지만 스카이레이크는 그에 더해 P스테이트의 새로운 제어 가세로 더욱 장시간 배터리 구동이 실현 될 가능성이 있다. 윈도우10에 대한 구현과 아울러 향후 등장하는 윈도우10 장착 노트북 PC와 2-in-1디바이스 등에 장착되는 것을 기대하고 있다.


출처 - http://pc.watch.impress.co.jp/docs/column/ubiq/20150820_717008.html

 

반응형
Posted by 랩터 인터내셔널

 

 

Source: IDC Worldwide Quarterly Wearable Device Tracker, August 27, 2015


Table Notes:
•Data is subject to change.
•Vendor shipments are branded device shipments and exclude OEM sales for all vendors.
•The "Vendor" represents the current parent company (or holding company) for all brands owned and operated as subsidiary.


미국의 시장조사 기관 IDC가 2015년 2분기 세계 웨어러블 점유율을 공개 했습니다.


IDC의 발표 자료에 따르면, 세계 웨어러블 시장은 애플 참전의 영향으로 전년대비 223.2% 성장한 1810만대 규모로 급 성장 했습니다.


그 중 웨어러블 시장 1위는 전년 대비 158.8% 성장한 440만대(24.3%) 규모의 핏빗(Fitbit), 2위는 올해 360만대(19.9%) 규모로 신규 진입한 애플(Apple), 3위는 310만대(17.1%) 규모로 신규 진입한 샤오미(Xiaomi), 4위는 전년 대비 40% 성장한 70만대(3.9%) 규모의 가민(Garmin), 5위는 전년 대비 25% 역성장한 60만대(3.3%) 규모의 삼성(Samsung)으로 나타나고 있습니다. (Others - 31.5% / 570만대)

 


WW3.png


 

 

웨어러블 시장은 애플과 핏빗의 1위 경쟁이 치열하게 진행중이며 그 뒤를 저렴한 가격으로 무장한 샤오미가 추격, 신규 스마트워치(기어S2)를 출시 할 예정의 삼성의 성과 여부에도 많은 관심이 모이고 있습니다. 

반응형
Posted by 랩터 인터내셔널

 

 

 

에이수스는 IEEE 802.11ac 대응 무선 LAN 라우터 RT-AC3200를 발매했다. 


RT-AC3200은 IEEE 802.11a/b/g/n/ac 대응 무선 LAN 라우터. 6개의 안테나를 달아 최대 전송 속도는 1,300Mbps.

 

일반적인 5GHz+2.4GHz 듀얼 밴드 구성이 아니라 5GHz× 2+2.4GHz의 트라이 밴드 구성을 채용하고 5GHz대역의 IEEE 802.11ac/n 연결에 대응하는 스마트폰이나 노트북 PC 등을 2대 동시에 접속해도 속도 저하 없이 풀 속도로 통신이 가능하다. 또 11ac 접속시 여러대의 완전 통신이 가능한 MU-MIMO 기술에도 대응한다.

 

접속 주파수를 자동으로 바꾸는 "스마트 커넥트", 2.4GHz 대역 접속에서 통신 속도를 최대 33% 고속화하고 대응 기기라면 11n 규격 상한 600Mbps에서 통신이 가능한 Broadcom의 "TurboQAM", 접속 기기의 위치를 검출하는 빔 오밍 기능을 강화한 "Ai Radar", 트렌드 마이크로의 시큐리티 기술, 특정 데이터 통신의 우선 순위를 변경할 수 있는 "Adaptive QoS"와 접속 장치의 트래픽 표시 등에 대응한 관리 기능 등을 탑재한다.

 

주요 사양은 칩셋에 Broadcom BCM4709(Cortex-A9기준, 2코어, 1GHz)/BCM43602×2/BCM43602×1, 메모리에 256MB DDR3, 스토리지에 128MB 플래시 메모리, 유선 WAN/LAN Gigabit Ethernet(WAN× 1, LAN× 4) 탑재. USB 3.0, USB 2.0을 갖추고 접속하는 스토리지를 간이 NAS로 이용할 수 있다. 보안은 64/128bit WEP, WPA/WPA2-PSK/Enterprise, RADIUS.

 

본체 크기는 약 290×188×58mm, 무게는 1,020kg.


출처 - http://pc.watch.impress.co.jp/docs/news/20150910_720477.html

반응형
Posted by 랩터 인터내셔널

 

 

 

안드로이드 단말기의 NFC 기능을 이용한 결제 서비스 안드로이드 페이(Android Pay)가 미국에서 9월 10일부터 시작됐다. 안드로이드 페이는 미국 내 100만곳 이상에서 사용할 수 있으며 대응을 더 확대 할 예정이다.


안드로이드 페이는 NFC에 대응하고 안드로이드4.4(KitKat) 이상이 동작하는 단말기에서 이용할 수 있다. 매장에 마련된 단말기에 가져다 대는 것만으로 결제가 완료되며 비자 및 마스터카드 등 대형 4개 결제 네트워크를 지원하는 Subway, Toys "R" Us, American Eagle, Macy's 등의 점포가 도입하겠다고 밝혔다.

 

실제 결제에 있어서는 본연의 신용 카드 번호가 아니라 가상적인 번호를 송신하는 것으로서 보안을 고려하고 있으며 스마트폰을 분실해도 원격으로 사용을 차단할 수 있다.


안드로이드 페이의 기능은 온라인 결제 수단인 구글 월렛(Google Wallet) 앱을 업데이트하여 이용할 수 있고, 향후 미국의 AT&T, T-Mobile, Verizon Wireless에서 발매되는 단말기에는 안드로이드 페이 대응 앱이 프리 인스톨 될 예정.

반응형
Posted by 랩터 인터내셔널

 

 

 

애플이 발표한 신형 아이폰6S/6S 플러스 모델이 중국에서 예약 접수 시작부터 12시간만에 모든 모델의 초도 물량이 매진 됐습니다. 애플이 중국에 초도 물량을 어느 정도 할당 했는지는 확인되지 않았으나 예상대로? 신형 아이폰 시리즈가 순조로운 출발을 시작하고 있습니다.

 

일본 또한 아이폰6S 플러스 모든 모델과 아이폰6S 로즈 골드 모델의 초도 물량이 매진됐고 출하 예정일은 2-3주로 예정되고 있다고 합니다. 

 

아시아 대형 시장인 중국과 일본에서 애플의 신형 아이폰6S 시리즈가 순조로운 출발을 보이면서 애플의 향후 실적에 관심이 모이고 있습니다.


iPhone 6s Pre-Order Tracker  (출처 - http://iphone-inventory.blogspot.kr/)


Apple has begun accepting pre-orders for the iPhone 6s and 6s Plus in first wave launch countries including: Australia, Canada, China, France, Germany, Hong Kong, Japan, New Zealand, Puerto Rico, Singapore, the UK, and the United States.

US

AT&T

iPhone 6s iPhone 6s Plus
16 GB 64 GB 128 GB 16 GB 64 GB 128 GB
Gray Sept 25 Sept 25 Sept 25 3-4 Weeks 3-4 Weeks 3-4 Weeks
Silver Sept 25 Sept 25 Sept 25 3-4 Weeks 3-4 Weeks 3-4 Weeks
Gold Sept 25 Sept 25 Sept 25 3-4 Weeks 3-4 Weeks 3-4 Weeks
Rose Sept 25 Sept 25 Sept 25 3-4 Weeks 3-4 Weeks 3-4 Weeks


Sprint

iPhone 6s iPhone 6s Plus
16 GB 64 GB 128 GB 16 GB 64 GB 128 GB
Gray Sept 25 Sept 25 Sept 25 3-4 Weeks 3-4 Weeks 3-4 Weeks
Silver Sept 25 Sept 25 Sept 25 3-4 Weeks 3-4 Weeks 3-4 Weeks
Gold Sept 25 Sept 25 Sept 25 3-4 Weeks 3-4 Weeks 3-4 Weeks
Rose Sept 25 Sept 25 Sept 25 3-4 Weeks 3-4 Weeks 3-4 Weeks

Verizon

iPhone 6s iPhone 6s Plus
16 GB 64 GB 128 GB 16 GB 64 GB 128 GB
Gray Sept 25 Sept 25 Sept 25 3-4 Weeks 3-4 Weeks 3-4 Weeks
Silver Sept 25 Sept 25 Sept 25 3-4 Weeks 3-4 Weeks 3-4 Weeks
Gold Sept 25 Sept 25 Sept 25 3-4 Weeks 3-4 Weeks 3-4 Weeks
Rose Sept 25 2-3 Weeks 2-3 Weeks 3-4 Weeks 3-4 Weeks 3-4 Weeks

T-Mobile

iPhone 6s iPhone 6s Plus
16 GB 64 GB 128 GB 16 GB 64 GB 128 GB
Gray Sept 25 Sept 25 Sept 25 3-4 Weeks 3-4 Weeks 3-4 Weeks
Silver Sept 25 Sept 25 Sept 25 3-4 Weeks 3-4 Weeks 3-4 Weeks
Gold Sept 25 Sept 25 Sept 25 3-4 Weeks 3-4 Weeks 3-4 Weeks
Rose 2-3 Weeks 2-3 Weeks 2-3 Weeks 3-4 Weeks 3-4 Weeks 3-4 Weeks

Canada

iPhone 6s iPhone 6s Plus
16 GB 64 GB 128 GB 16 GB 64 GB 128 GB
Gray Sept 25 Sept 25 Sept 25 3-4 Weeks 3-4 Weeks 3-4 Weeks
Silver Sept 25 Sept 25 Sept 25 3-4 Weeks 3-4 Weeks 3-4 Weeks
Gold Sept 25 Sept 25 Sept 25 3-4 Weeks 3-4 Weeks 3-4 Weeks
Rose Sept 25 2-3 Weeks 2-3 Weeks 3-4 Weeks 3-4 Weeks 3-4 Weeks

UK

iPhone 6s iPhone 6s Plus
16 GB 64 GB 128 GB 16 GB 64 GB 128 GB
Gray Sept 25 Sept 25 2-3 Weeks 3-4 Weeks 3-4 Weeks 3-4 Weeks
Silver Sept 25 Sept 25 Sept 25 3-4 Weeks 3-4 Weeks 3-4 Weeks
Gold Sept 25 Sept 25 Sept 25 3-4 Weeks 3-4 Weeks 3-4 Weeks
Rose 2-3 Weeks 2-3 Weeks 2-3 Weeks 3-4 Weeks 3-4 Weeks 3-4 Weeks


China

iPhone 6s
iPhone 6s Plus
16 GB
64 GB
128 GB
16 GB
64 GB
128 GB
Gray
2-3 Weeks
2-3 Weeks
2-3 Weeks
3-4 Weeks
3-4 Weeks
3-4 Weeks
Silver
2-3 Weeks
2-3 Weeks
2-3 Weeks
3-4 Weeks
3-4 Weeks
3-4 Weeks
Gold
2-3 Weeks
2-3 Weeks
2-3 Weeks
3-4 Weeks
3-4 Weeks
3-4 Weeks
Rose 2-3 Weeks 2-3 Weeks 2-3 Weeks 3-4 Weeks 3-4 Weeks 3-4 Weeks

Japan

iPhone 6s iPhone 6s Plus
16 GB 64 GB 128 GB 16 GB 64 GB 128 GB
Gray Sept 25 Sept 25 2-3 Weeks 3-4 Weeks 3-4 Weeks 3-4 Weeks
Silver Sept 25 Sept 25 2-3 Weeks 3-4 Weeks 3-4 Weeks 3-4 Weeks
Gold Sept 25 Sept 25 2-3 Weeks 3-4 Weeks 3-4 Weeks 3-4 Weeks
Rose 2-3 Weeks 2-3 Weeks 2-3 Weeks 3-4 Weeks 3-4 Weeks 3-4 Weeks
반응형
Posted by 랩터 인터내셔널



미국 인텔과 Micron Technology는 양사의 공동 연구에 의한 완전히 새로운 비휘발성 메모리 3D XPoint를 개발하고 양산을 시작했다고 발표했다.

 

낸드플래시 등장이후 25년 만에 새롭게 등장한 3D XPoint는 새로운 구조로 기존 낸드 대비 최대 1000배의 고속화를 실현한다.

 

3D XPoint는 10년 이상의 연구 개발 기간을 거쳐 개발된 독자적인 크로스 포인트 아키텍처를 탑재한다. 워드 선과 비트 선의 교차점 메모리 배치하는 3D 바둑판 만들 수 있기 때문에 메모리 에 대한 개별 접근 가능해진다.


크로스 포인트 배열 구조는 도체가 수직으로 배치되어 1280억의 메모리 셀과 연결되는 3차원 고밀도 설계로 DRAM의 10배 집적도가 된다. 현재 메모리 셀이 2층 구조로 되어 있으며 대당 128Gbit의 데이터를 저장할 수있다. 향후에는 적층수를 늘려 용량을 더욱 향상시킨다고 한다.


트랜지스터가 불 필요한 것은 메모리 셀이 셀렉터에서 보낸 다양한 전압에서 읽기/쓰기를 할 수 있기 때문에 이에 의한 대용량화와 저비용화를 실현한다.


인텔은 올해 3D XPoint을 채용한 제품의 샘플 출하를 시작하며 그에 따라 고집적 등의 기계 학습과 패턴 분석, 유전자 분석 등 대용량 데이터의 고속 처리에 대한 기대뿐만 아니라 8K 게이밍 등 엔터테인먼트 분야에서의 응용 프로그램 창출을 촉진시킬 것이라 밝히고 있다.


cross_point_image_for_photo_capsule.jpg


3D_XPoint_Die.jpg

 


 

반응형
Posted by 랩터 인터내셔널

AMD 차세대 x86 CPU "젠(Zen)" ARM CPU "K12"를 양축으로 전개한다. Zen 현재 불도저(Bulldozer) CPU 코어 "Excavator(엑스카베이터)"보다 40%나 클럭당 실행 성능이 높아진다. GPU에는 차세대 광대역 메모리 기술 "HBM(High Bandwidth Memory)"을 타사보다 앞서 채용한다.

앞으로 몇 년간 이 회사 신 아키텍처와 신 기술 러시가 진행된다. 강력한 신규 CPU 코어 GPU 코어를 기둥으로 게임 가상 현실 의 몰입형 플랫폼, 그리고 데이터 센터와 같은 시장을 개척한다는 전략이다.

PlayStation 4(PS4)과 Xbox One에서 성공한 세미 커스텀 형 비즈니스도 확산하고 있는 것으로 밝혔다. AMD는 지난 몇 년간 전통적인 PC 플랫폼 이외 시장 개척에 힘을 쏟아 왔고 신규 CPU 코어에 의해서 그 전략이 점차 구체화 되고 있다.


AMD 미국 뉴욕 증권 거래소 나스닥(NASDAQ)에서 개최한 "2015 FINANCIAL ANALYST DAY"에서 동사의 기업 전략 전환과 제품 로드맵 쇄신을 발표했다. 첫머리에 등장 AMD Lisa Su(리사수)(President and Chief Executive Officer, AMD)는 동사 비즈니스 이행이 순조롭게 진행되고 있으며 전통적인 PC 비즈니스 엔터프라이즈, 배치, 세미 커스텀 매출이 2014년 40%에 이른 것 설명. 이들 시장 확대로 이후 동사 사업이 급속하게 상승세를 탈 것이라 밝혔다.


111.jpg


 

이 회사가 이번에 발표한 제품 로드맵은 이러한 기업 전략에 따르고 있다. 강력한 CPU코어 투입에 포커스하여 플랫폼을 단순화하고 확장 가능하게 한다. 그래서 내년(2016년)에는 새로운 CPU 코어 탑재한 CPU 제품을 하이엔드 FX 시리즈로 출시한다.


222.jpg


 

젠은 현재 Bulldozer(불도저)계 마이크로 아키텍처 CPU코어가 아니라 완전히 새로운 설계 코어다. 올해의 APU "카리조(Carrizo)"에 탑재되는 엑스카베이터 코어보다 클럭 명령 실행 성능 IPC(Instruction-per-Clock)가 40%나 높아진다고 한다. Bulldozer계는 스레드 정수 연산 파이프가 2개지만에서는 3개 이상으로 되는 것 확실할 것.


333.jpg


 

또, AMD CPU에서는 처음으로 SMT(Simultaneous Multithreading)를 지원 한다는 것을 AMD 기술 전략을 총괄하는 마크 페이퍼 마스터(Mark Papermaster) Senior Vice President and Chief Technology Officer에 의해서 밝혀졌다. SMT 인텔 Hyper-Threading으로 채용하고 있으나의 탑재에 대해서는 밝혀지지 않았다.  캐시 시스템을 갱신해 광대역이며 동시에 낮은 레이턴시 캐시 계층을 구현하는 것도 공표, FinFET 3D 트랜지스터 기술을 제조 공정 기술 사용함으로써 전력 효율이 크게 개선된다고 설명했다.


AMD 지난해(2014년) 5월 젠과 함께 고성능 ARM 코어 "K12" 개발하고 있는 것도 밝혔다. K12 2017년에 투입되며 서버 성능이 요구되는 임베디드 시장을 위한 제품이다.의 개발 노하우가 K12에도 활용 될 것으로 보인다. AMD 고성능 CPU 커스텀 회로 설계를 다용하는데 K12 그러한 설계가 될 것으로 예상된다.

GPU 광대역 메모리 기술 HBM(High Bandwidth Memory,SK 하이닉스)를 채용한 제품 올해 중반 발표되는 것도 확인됐다. HBM 다이(반도체 본체)를 적층 하는 스택 DRAM 기술로 500GB/sec 이상 메모리 대역 GDDR5 보다 훨씬 낮은 소비 전력으로 실현한다. 이 회사는 HBM 우선 GPU GDDR5 대체 그래픽 메모리로 채용한다고 한다.


444.jpg


 

GPU 코어는 내년(2016년)에는 현행 GCN(Graphics Core Next)을 개량한 GCN 3.0으로 이행, FinFET 3D 트랜지스터 프로세스 기술로 이행하고 전력 효율을 2배로 높이겠다고 밝혔다. 가상 현실에 대한 최적화도 하겠다고.


555.jpg


 

CPU 코어 GPU 코어 개량에 의해서 AMD 앞으로 APU(Accelerated Processing Unit) 전력 효율도 높인다. 2020년까지 현재보다 25배 전력 효율 향상을 목표로 한다. CPU GPU를 통합한 HSA(Heterogeneous System Architecture) 프로그래밍 모델도 확충한다. 머신 러닝 시장에도 포함할 것이라 AMD는 생각한다.


666.jpg


 

제품 로드맵에서는 지난해 5월 발표한 x86 ARM 호환 " 설계 프레임워크" "Project SkyBridge(스카이브릿지)"가 취소된 것으로 밝혀졌다. 이는 x86 ARM 플랫폼 호환 요구 자체가 낮다고 AMD 설명한다.

무엇보다 스카이브릿지의 본질은 소켓과 마더보드와 같은 차원뿐만 아니라 SoC(System on a Chip) 내부 호환 x86 ARM 아키텍처 SoC 설계 호환성을 높인다는 점이다. 이 점이 K12 세대로 지속될지는 밝혀지지 않았다.

스카이브릿지는 20nm 프로세스로 올해(2015년) 제조 될 예정이었다. 그러나 20nm는 IP를 설계해 봤지만 CPU에는 이점이 적은 것 밝혀지면서 AMD는 메인 스트림 제품에는 20nm를 채용하지 않기로 했다고 한다. 현재 제품 로드맵에서 28nm 평면 트랜지스터 프로세스에서 14/16nm FinFET 3D 트랜지스터 프로세스 점프할 계획이다.

스카이브릿지의 취소는 이 회사 설계 자원을 집중시키고 플랫폼을 심플화하며 제품 라인을 정리한다는 점에서는 효과가 높다. , 기업과 내장, 세미 커스텀에 맞춘다는 회사 전략에도 부합한다. 결과적으로 AMD 로드맵은 단단한 이다.


출처 - http://pc.watch.impress.co.jp/docs/column/kaigai/20150507_700728.html

 

반응형
Posted by 랩터 인터내셔널

000_588x.jpg


3월 10일에 개최된 애플의 미디어 행사 발표에서 딱 한달, "맥북(MacBook)"이 출하됐다. 실버, 그레이, 골드의 세가지 색상 중 어느 것을 택할지 고민하던 사람도 있겠지만 실용적으로 활용할 수 있는지의 여부를 우려하는 사람도 많지 않을까?

 

"MacBook"(스페이스 그레이)

 

이번에 라인업 중 하위 기종으로 1.1GHz 듀얼 코어 인텔 Core M 프로세서를 탑재한 스페이스 그레이 모델을 테스트할 수 있었으므로 그 퍼포먼스와 사용법을 소개한다.

 

 

스페이스 그레이 모델의 전면. 애플 마크는 빛나지 않는다 플랫 한 바닥

 

애플의 새로운 "MacBook" 패키지

패키지에는 본체색과 같은 애플 마크 스티커가 동봉


주요 스펙


제품명 맥북(MacBook)
CPU 인텔 Core M-5Y31(1.1GHz/터보 부스트시 최대 2.4GHz)
메모리
(최대)
8GB 1600MHz LPDDR3
디스플레이
(해상도)
12형 와이드(2304×1440, 16:10,226ppi)
그래픽 인텔 HD Graphics 5300
플래시 스토리지 256GB(PCIe 기준)
광학 드라이브 없음
LAN 무선 LAN (IEEE 802.11a/b/g/n/ac)
인터페이스 USB 3.1 Type-C 단자(전원 포트 겸용), Bluetooth 4.0
카드 슬롯 없음
사운드 내장 스테레오 스피커, 헤드폰 단자, 내장 듀얼 마이크
사이즈/중량 폭 280.5×두께 196.5×높이 3.5~13.1mm/920g
OS OS X 요세미티(Yosemite)



새로운 맥북(이하 MacBook)은 인텔이 2014년 9월 발표한 새로운 CPU 브랜드 "Core M"이 탑재돼 있다. 이는 개발 코드 네임 "Broadwell-Y"로 불렸던 것으로 TDP(열 설계 전력)이 4.5W로 매우 전력 효율이 좋은 것이 특징이다. 발열이 적어 PC 업체들이 Core M을 탑재한 팬리스 노트북이 개발되어 발매되고 있다. 이번에 등장한 새로운 MacBook도 팬리스다.

 

MacBook의 라인업은 이 CPU의 성능과 스토리지 용량의 차이에 따라 모두 3가지 선택으로 나뉜다. CPU는 하위에서 동작 주파수가 1.1GHz, 1.2GHz, 1.3GHz(단, 최상위 1.3GHz는 애플 스토어의 CTO에서만 선택 가능)에서 플래시 스토리지의 용량은 하위 모델만 256GB로 나머지는 512GB이다.


애플은 탑재 CPU를 세부적으로 밝히진 않았지만 이번에 테스트할 수 있는 1.1GHz 모델의 경우 후술 하는 벤치마크 결과에 의하면 "Intel Core M-5Y31" 이었다. 이는 기본 동작 주파수가 900MHz의 것으로 애플은 cTDP(소비 전력을 올리기)에 의한 정격보다 높은 작동 주파수로 동작하는 것 같음에도 불구하고 팬리스를 실현할 수 있는 것은 그만큼 MacBook 배열의 효율이 좋다는 것일까.

 

다만 cTDP는 처리 속도가 높아지는 반면 소비 전력도 오르기 때문에 배터리 구동 시간 등이 불리할 수가 있다. 3월 미디어 행사에서 애플은 MacBook의 바디 내에 턱을 만들어 빈틈없이 배터리를 좁혀 기존 기술에서 내장 가능한 용량보다 35% 큰 배터리 용량을 실현했다고 설명하고 있었지만 그것에는 이러한 이유가 있는 것 같다.


또한 하위 모델과 상위 모델은 CPU와 스토리지 이외는 공통 사양이 되어 있으며 모두 표준으로 8GB의 메모리를 탑재하고 있다. 그래픽은 CPU가 내장된 Intel HD Graphics 5300. 액정 디스플레이는 12형의 Retina 디스플레이로 해상도는 2304×1440 픽셀이다(스케일링 해상도는 1440×900,1280×800,1024×640).


 

 

신형 MacBook은 해상도가 2304×1440픽셀의 12형 레티나(Retina) 디스플레이를 탑재한다


인터페이스는 USB 3.1 Type-C 단자와 헤드폰 단자가 각각 1기. 또 USB 3.1 Type-C 단자는 전원 단자와 겸용이다. 이 밖에 표준적인 USB 단자와 영상 출력 단자 등은 탑재하지 않아 주변 기기를 사용하려면 별매의 어댑터가 필요하다. 꽤 대담한 사양이지만 애플은 iMac에서 플로피 디스크 드라이브를, MacBook Air에서 광학식 드라이브를 다른 업체에 앞서서 버린 바 있다. 이번에도 USB 3.1 Type-C의 보급에 상당히 자신을 갖고 있는 것이다.


 

본체 왼쪽 측면에는 USB 3.1 Type-C 단자만이 탑재되고 있다

 

본체 우측면에는 헤드폰 단자와 듀얼 마이크로폰이 탑재되고 있다


본체 크기는 최후부 13.1mm, 중량 920g으로 Mac사상 최박, 최경량이다. 몸통 중앙에서부터 끝까지 날씬해져가 디자인 때문인지 스펙보다 훨씬 얇아 보인다. 그러나 알루미늄 유니 바디 때문에 강성은 높아 일반적인 사용에서 휘어지는거나 틀어지지 않을 것이다.


 

최후부 13.1mm, 최박부 3.5mm로 매우 날씬한 본체이지만 강도는 높다

 

새로운 MacBook의 본체 전면

 

본체 배면. MacBook Air나 MacBook Pro와 달리 힌지부에 블랙이 없는 본체 색과 같은 색


cTDP에서 정격보다 높은 동작 주파수를 실현 한다지만 MacBook이 채택하고 있는 Core M은 저전력 중시의 CPU로 퍼포먼스는 충분한 것일까? 또 열에 의한 영향은 없는 것일까? 여기에서 여러 벤치 마크를 해보기로 했다. 우선"Geekbench 3"을 사용해 Mac 현행 기종의 CPU 성능을 체크해 보았더니 다음과 같았다.

 

Geekbench 3 벤치 마크 결과. 왼쪽이 32bit, 오른쪽이 64bit


Geekbench 3(32bit)에 의한 벤치 마크 결과
기종 CPU Single-Core Score Multi-Core Score
MacBook Core M(1.1GHz) 2228 4093
MacBook Air 13(Early 2015) Core i5(1.6GHz) 2663 5147
Mac mini(2014) Core i5(2.6GHz) 2937 6119
Geekbench 3(64bit)에 의한 벤치 마크 결과
기종 CPU Single-Core Score Multi-Core Score
MacBook Core M(1.1GHz) 2417 4601
MacBook Air 11(Early 2015) Core i5(1.6GHz) 2924 5804
Mac mini(2014) Core i5(2.6GHz) 3222 6877


이번에는 MacBook Air의 엔트리 모델이나 Mac mini의 중간 모델과 비교해 봤지만 예상 이상으로 건투 하는 것으로 나타났다. 그리고 MacBook의 스코어는 3세대 전의 MacBook Air(Mid 2012) 엔트리 모델에 맞먹는 수치.


다음 "CINEBENCH R15"을 실행해 보았더니 다음과 같았다.


 

 

"CINEBENCH R15"에 의한 벤치 마크 결과


CINEBENCH R15에 의한 벤치 마크 결과

기종 그래픽스 CPU OpenGL점수(fps) CPU스코어(cb)
MacBook Intel HD Graphics 5300 Core M(1.1GHz) 18.59 207
MacBook Air 13(Early 2015) Intel HD Graphics 6000 Core i5(1.6GHz) 27.18 258
Mac mini(2014) Intel Iris Graphics Core i5(2.6GHz) 25.99 273



역시, 그래픽 성능은 조금 차이가 벌어지고 있다. 그러나 MacBook의 18.59fps라는 OpenGL 점수는 1세대 전의 MacBook Air(Early 2014)과 동등한 결과. 결코 퍼포먼스가 나쁜 것이 아니다.

동영상 인코딩에서 고 부하시 발열을 확인

CPU와 그래픽에 대해서는 충분히 실용성을 갖춘 성능인 것으로 나타났으나 역시 궁금한 것이 고 부하시 발열이다. 애플의 공식 사이트에서는 MacBook의 CPU의 소비 전력은 5W라고 적혀 있다. 정격 4.5W 보다 조금 높지만 이는 어떤 영향을 미칠 것인가. 여기서 CPU의 각 스레드를 모두 구동하는 처리를 실행하고 발열의 영향을 점검키로 했다. 구체적으로는 동영상 변환 소프트웨어 HandBrake를 사용해 1시간 정도 연속 4K 동영상을 풀 HD와 720p의 해상도로 변환 해봤다.

 

 

CPU 사용율. 2코어 4스레드를 풀 가동한 상태에서 본체의 발열을 체크했다


그 결과 동영상 인코딩 중에는 MacBook의 이면(키보드의 힌지에 걸친 뒤쪽 부분)은 확실히 열이 있지만 체온보다는 조금 따뜻하다는 정도. 천을 통해서도 희미하게 따스함은 전해져 오지만 장시간 부하를 펼쳤을 경우에도 불쾌하게 느낄 정도는 아니었다. 수중에 있는 MacBook Air 11인치 모델(Mid 2012/Core i7/2.0GHz)과 비교해 봤으나 MacBook Air가 팬을 구동하기 전보다 MacBook은 분명하게 온도가 낮다.

 

MacBook에 1시간 정도 동영상을 인코딩할 때 동영상 변환 속도가 도중에 극단적으로 늦거나 하는 일도 없었다. 적어도 이번 테스트에서는 발열을 줄이기 위해 일시적으로 동작 클럭을 낮추는 일은 없는 것 같았다.

 

또 4K(3840×2160/24fps/4분 46초/2.14GB)의 동영상 소스를 720p(1280×720)로 변환 했을때의 시간은 MacBook이 15분 18초로 MacBook Air 11인치가 12분 14초였다. 비교한 MacBook Air는 2012년 CTO모델로 Core i7(2.0GHz)를 탑재한 것이지만 Geekbench의 스코어는 현행 MacBook Air와 거의 같다.


그것을 생각하면, MacBook은 상당히 분발하고 있다.


초박형 경량 MacBook은 외부에서도 사용할 기회가 많을 것으로 예상된다. 여기서 궁금한 것은 배터리 구동 시간이다. 애플 공식 사이트에서는 "최대 9시간의 무선 인터넷, 최대 10시간 iTunes 영화 재생" 이라고 되어 있지만 실제로는 어떨까?


여기서 조건을 바꾸면서 배터리 구동 시간을 체크 해봤다. 우선, 시스템 환경 설정의 "디스플레이"에서 "휘도"을 25% 정도로 설정. 그 상태에서 로컬로 저장한 1080p의 H.264/AAC 동영상을 전체 화면에서 반복 재생했는데 12시간 36분이 지난 곳에서 강제 슬립이 됐다.

 

다음 "밝기"을 100% 정도로 설정하고 YouTube의 풀 HD 동영상 콘텐츠를 연속 재생했는데 5시간 56분의 구동이 가능했다. 이렇게 높은 부하를 걸어 6시간 이어진다는 것은 상당히 좋은 성적이다. 참고로 밝기 100% 라는 것은 매우 밝고, 일반적으로는 좀 낮춰 사용하게 될 것 이므로 하루 정도는 전원 어댑터를 갖고 다니지 않아도 문제가 없을것 같다.

 

또 부속된 전원 어댑터는 MacBook Air 용 보다 머리 하나는 작은 전원 케이블을 분리하는 것도 가능하다. 매우 컴팩트하고 중량도 실측으로 108g 밖에 안된다. 여행이나 출장시 갖고 가더라도 짐이 안 되는 것이 기쁘다.

 

 

 

전원 어댑터와 USB 3.1 Type-C 코드. 코드는 전원 어댑터에서 탈착 할 수 있다 USB 3.1 Type-C 코드의 커넥터부는 iPhone 등이 채택하고 있는 Lightning 연결기보다 조금 큰 정도의 사이즈

 

MacBook의 전원 어댑터(왼쪽)과 MacBook Air의 전원 어댑터(오른쪽). 한 둘레 작지만 측면의 애플 마크가 없어졌다



최박부 3.5mm, 최후부에서 13.1mm의 신형 맥북(MacBook)은 그 얇음을 실현하기 위해 다양한 고안이 시행되고 있다. 그 하나가 키보드다. 종래의 구조부터 새로운 설계인 접영 구조로 바뀌어 키보드가 얇아 졌다.


키톱은 종전보다 면적이 커지고 있지만 키 스트로크는 매우 얕아지고 있어 처음 타이핑 할 때는 적잖이 위화감을 느낀다. 그러나 클릭감은 확실히 있고 키의 중앙 부근을 밀거나 끝을 눌러도 제대로 입력이 인식되기 때문에 입력 자체는 쉽고, 강한 힘으로 누를 것이 아니라 가볍게 누르면 부드럽게 입력할 수 있다고 생각한다.

 

 

 

MacBook의 키보드. 각 키의 면적이 MacBook Air등 보다 크고 키와 키 사이의 간격이 협소

 

키보드는 백 라이트를 내장하고 있다

 

키 스트로크는 얇지만 클릭감이 있다


개인적으로는 키감이 상당히 마음에 들었지만 키보드는 평가가 나뉘기 쉬운 부분이기도 하기에 사람에 따라서는 생소할지도 모른다. 구입을 검토하고 있다면 사전에 매장 등에서 사용해 보는 것을 추천한다.

감압 터치 트랙 패드

키보드와 마찬가지로 트랙 패드도 새로운 설계가 채용되고 있다. 기존에는 트랙 패드 전체가 단추로 되어 있고 아래로 내려가면서 밀어넣는 형태였지만 MacBook의 경우 압력 감지 기능과 촉각 피드백에 의해 유사하게 조회감을 재현하고 있다. 정말 아래 방향으로 누르는 느낌이 있어 처음 만졌을 때는 약간의 감동이 있었다. 매장에서 테스트 기회가 있으면 꼭 트랙 패드를 만져 보라.

 

 

트랙 패드는 리얼한 클릭감이 있다

USB 3.1 Type-C 단자

하나 더 당활 할 요소가 인터페이스다. 주변 기기와 접속에 사용하는 데이터 전송용 단자가 현 시점에서는 별로 보급되지 않은 USB 3.1 Type-C 하나로 그 자체로는 기존 USB 기기를 연결할 수 없다. 또 USB 3.1 Type-C 단자가 전원 커넥터를 겸하고 있기 때문에 충전 중에는 단자가 막혀 주변 기기를 사용할 수 없다.

 

 

USB 3.1 Type-C 단자


여기서 애플은 옵션으로 3종류의 어댑터를 준비하고 있다. 하나가 "USB-C-USB 장치"로 MacBook에 기존 USB 기기를 접속할 수 있다. 또 하나는 "USB-C VGA Multiport 장치"로 USB 기기와 충전 케이블, VGA 대응의 외장 디스플레이와 프로젝터를 연결할 수 있다. "USB-C Digital AV Multiport 장치"는 USB 기기와 충전 케이블, HDMI 대응의 외장 디스플레이 등에 접속이 가능하다.


 

옵션 "USB-C-USB 장치". MacBook에 기존 USB 기기를 접속 "USB-C VGA Multiport 장치". USB 기기와 충전 케이블, VGA 대응의 외장 디스플레이와 프로젝터를 연결할 수 있다

 

"USB-C Digital AV Multiport 장치". USB 기기와 충전 케이블, HDMI 대응의 외장 디스플레이 등에 접속이 가능하다


이번에는 이들 3종류의 어댑터도 테스트할 수 있어서 실제로 "USB-C Digital AV Multiport 장치"를 사용해 MacBook을 HDMI 디스플레이에 연결 해봤다. 그리고 충전하면서 외장 디스플레이와 USB접속의 HDD를 써 봤지만 별 문제 없이 안정되게 동작하고 있었다.

 

 

MacBook의 USB 3.1 Type-C 단자에 "USB-C Digital AV Multiport 장치"를 장착


또 MacBook의 내장 디스플레이와 외장 디스플레이를 미러링이 가능하여 메뉴바의 미러링 옵션에서 데스크탑 크기를 외장 디스플레이에 맞추거나 내장 디스플레이에 맞출지를 선택할 수 있다.

 

 

디스플레이 미러링은 데스크탑 크기를 외장 디스플레이나 MacBook 내장 디스플레이 하나로 설정할 수 있다


가령 풀 HD의 외장 디스플레이에 맞춘 경우는 MacBook의 내장 디스플레이도 덩달아 풀 HD로 된다. 스캘링으로 표시 자체는 예쁜 것이지만 역시 12인치 화면에서 풀 HD는 표시가 너무 섬세하고 작은 것이 있었다.

 

주변 기기를 사용할때 일일이 어댑터가 필요하게 되는 것은 귀찮지만 충전 케이블과 외장 디스플레이, 자주 사용하는 주변 기기를 어댑터가 있는 채로 두면 한 단계에서 MacBook에 이러한 기기를 접속할 수 있다. 집에서는 노트북을 외장 디스플레이에 연결하고 싶은 사람이라면 독립된 영상 출력 단자를 갖는 노트보다 MacBook& 어댑터가 오히려 쓰기 쉬울지도 모른다고 느꼈다.


새로운 MacBook의 구입을 검토했을때 큰 관문이 될 것 같은 것이 가격이다. 다만 각 제품의 구성을 살펴보면 꼭 비싼 것은 아니다. 예를 들어 MacBook Air 13인치는 메모리가 4GB 밖에 탑재되지 않고 액정 표시 장치도 Retina가 아니다. 13인치 MacBook Pro Retina 디스플레이의 엔트리 모델은 플래시 스토리지가 128GB다.

 

그것에 비해 MacBook은 하위 모델에서도 메모리가 8GB, 플래시 스토리지가 256GB 다. 그 스펙의 차이와 인터페이스 주변의 사양, CPU 성능을 어떻게 보느냐에 따라서 코스트 퍼포먼스의 평가는 엇갈릴 것이다. 용도, 예산, 필요성 등을 고려하면서 곰곰이 생각해 보기 바란다.


 

 

MacBook은 하위 모델에도 메모리가 8GB, 플래시 스토리지 용량이 256GB. 그 스펙의 차이와 인터페이스 사양, CPU 성능을 어떻게 보느냐에 따라서 코스트 퍼포먼스의 평가는 엇갈릴 것.


출처 - http://ascii.jp/elem/000/001/001/1001347/index-6.html

반응형
Posted by 랩터 인터내셔널
블루진(BlueGene)계열에 대한 언급 중 슈퍼 컴퓨터의 계보는 다시 ASC 계열로 돌아간다. 기념할 만한 연재 300회를 맞는 이번에는 ASCI Q의 치환 때문에 IBM이 개발한 로드러너(RoadRunner)다.

 

세계 최초로 1PFLOPS에 도달한 컴퓨터 "RoadRunner"

 

노드수도 동작 주파수도 한계, 후계기 마련에 다가선 한계 

어스 시뮬레이터와 BlueGene/L이라는 2제품의 성공은 ASC 계열을 생각하는데 큰 과제를 남겼다.

 

우선 첫번째는 노드 간 접속 레이턴시의 문제다. ASCI 계열만 보고 있으면 SMP(Symmetric Multiprocessing:대칭형 다중 프로세싱)+클러스터 방식이 안 된다고 생각하지만 어스 시뮬레이터도 초대 시스템은 640노드를 1단 크로스 바로 연결한 거대한 SMP+클러스터 구성이다.

 

그럼에도 불구하고 이 어스 시뮬레이터가 높은 성능을 발휘한 이유의 하나는 원래 프로세서가 벡터 방식으로 250MHz로 낮은 동작 주파수에서도 8GFLOPS의 성능을 얻고 있어 전체 성능을 벌어들였던 것이지만 다른 하나는 노드 간 접속이 아주 고속이었던 것이다.


이는 일단 크로스 바를 사용한 데 따른 것이지만 여기서 크로스 바를 쓴 것은 노드 수가 640개로 적은데 따른 것이다. 후기형 어스 시뮬레이터는 노드 수가 5120개로 늘어나면서 크로스 바를 포기하고 2단 구성의 크로스 바에서 Fat Tree를 구성한다는 ASCI Q를 방불케 하는 구성이다.

 

즉, 노드 수가 늘어나면 레이턴시가 늘어난다는 당연하다고 말할 수 있는 결과다.


또 다른 하나는 범용 프로세서의 한계다. BlueGene/L은 듀얼 FPU로 700MHz 구동으로 2.8GFLOPS를 실현했고 합계 360TFLOPS의 머신을 구축할 수 있었지만 이것으로 1PFLOPS가 가능한가 하면 3배의 노드수로는 노드 간 통신의 레이턴시가 어려운 일이다.

 

즉 midplane의 수가 128개에서 384개가 될 것인데 이를 프로그램에서 사용하기는 꽤 어려울 것이며 1개의 midplane의 노드 수를 늘리는가 하면 이번에는 midplane 내 레이턴시가 부쩍 늘어날 것이다.

 

여기서 동작 주파수를 3배로 높인다고 할 수 있지만 그 경우 소비 전력이 아마 10배를 넘어 Blue Gene/L의 높은 실장 밀도는 이룰 수 없다.


CRAY-2 수준으로 냉각액에 모두 담그는 정도의 방열 대책 마련이 필요하기 때문에 성능/소비 전력비가 엄청나게 떨어진다.

 

이러한 이야기는 2004년경부터 본격적으로 나오고 있는 것으로 1노드 당 성능을 올리는게 제일 편하다는 당연한 이야기가 됐다. 다만 동작 주파수는 이제 한계가 드러나고 있던 터라 이는 방법론으로서는 좋지 않다.


 

 

동작 주파수의 추이. 출처는 2007년 로스앨러모스 국립 연구소의 John A. Turner가 발표한 "Roadrunner:Heterogeneous Petascale Computing for Predictive Simulation" 이라는 논문. 원 데이터가 Tom's hardware guide. 이후로 작동 주파수는 계속 달리고 있지만 2015년 현재는 4GHz 근처에서 포화. 이를 넘어선 제품을 내는 것은 IBM 뿐이다


여기서 멀티 코어라고 말하면 이쪽은 반도체 제조 기술과의 약속이 되는 셈이지만 코어 수를 늘리면 코어 간의 동기가 문제가 되어 이쪽도 무진장으로 늘릴 수만 있는 것도 아니다. 거기서 Heterogeneous Architectures를 이용한다는 것이 ASC의 결론이었던 것 같다.

 

Heterogeneous(헤테로지니어스)로 활로를 찾는

당시는 또 Heterogeneous로 불릴 것은 3개밖에 없었다. 우선은 인텔이 연구 개발의 일환으로 발표한 80코어의 프로토 타입, 그리고 GPGPU로 이용할 수 있게 된 GPU, 다른 하나가 Cell이다.


 

인텔이 발표한 80코어의 개요. 이 80코어 CPU 1개에서 1.8TFLOPS이므로 555개를 나열하면 계산상은 1PFLOPS가 실현된다 GPU를 연산에 이용하는 이점.다만 2006년이라고 하면 아직 NVIDIA가 G80 코어(GeForce 8800 세대)에서 CUDA을 이용할 수 있게 된 직후인 당시로 성능도 미흡하고 배정밀도 부동 소수점은 다루지 않았다


우리는 알고 있듯이 Cell프로세서는 SCE의 PlayStation 3을 위해서 SCE-소니 IBM, 도시바가 공동으로 개발한 프로세서로 64bit의 PPE(PowerPC Processor Element)로 불리는 범용 프로세서에 SPE(Synergistic Processor Element)라 불리는 서브 프로세서×8을 조합한 것이다.


 

Heterogeneous의 신성 Cell 프로세서.


PPE 자체는 별로 성능이 높지 않고 주로 SPE 관리 등에 전념하는 형태로 연산 자체는 SPE이 주체로 하는 것이 일반적이었다.


이 SPE는 단정밀도 부동 소수점 연산이면 1개당 25.6GFLOPS에 이를 7개 이용함으로써 179.2GLOPS의 연산 성능을 발휘했다.

 

그리고 왜 7개인가는 8개의 SPE 중 1개는 무효화되고 있어(이는 수율 개선 때문)만일 8개로 유효하게 하면 204.8GFLOPS가 되는 계산이다.

 

추가로 만일 PPE도 풀로 연산을 시켰을 경우의 피크 성능은 230.4GFLOPS가 되는 계산이지만 여기까지 성능이 나오지는 못한 모양이다.



 

ASC Project가 선택한 것은 AMD 옵테론과 셀(Cell)


ASC Project는 최종적으로 이 Cell을 기반으로 한 Heterogeneous의 시스템을 구축하는 계약을 2006년 9월에 IBM과 맺었다. 계약은 3단계로 나뉘며 이하의 3단계로 시스템을 납품하게 됐다.


Phase 1: Opteron 프로세서를 이용한 Base System
Phase 2: Opteron에 Cell을 조합한 부분적인 실증 시스템
Phase 3: Opteron+Cell의 완전한 시스템

왜 IBM이 자신들의 Power/PowerPC, 인텔의 CPU를 사용하지 않고 AMD의 Opteron을 선택한 것인가 하면, 2006년 당시에 IBM은 POWER 5+인데 작동 주파수는 2.3GHz 정도로 절대적인 연산 성능은 높았으나 소비 전력도 컸다.


한편 인텔은 작동 주파수가 더 높은 Dempsey/Tulsa 세대를 이때 투입했으나 이는 Ceder Mill기반 코어로 작동 주파수는 몰라도 성능은 낮았다.

 

원래 Opteron 코어는 나중에 등장하는 Cell에 대해 데이터 분배를 하는 역할이어서 반드시 높은 성능은 불 필요하고, 오히려 I/O의 산출량 및 저전력이 요구되는 덕목이었다.

 

이점에서 Hyper Transport Link를 사용하고 I/O을 확장할 수 있는 Opteron 계열은 칩셋 경유로 I/O에서 인텔과 IBM 프로세서보다 오히려 뛰어나다는 판단을했다고 생각된다.

 

실제로 로스앨러모스 국립 연구소에 설치된 RoadRunner에 이용된 것은 1.8GHz 구동의 "Opteron 2210"이었다.

 

그런데 Phase 1에서 납품된 것은 LS21과 Expansion blade의 구성(아래 그림)이다. LS21은 얇은 블레이드 구성 2P 서버로 실제로는 그림보다 좀 더 복잡하다. Hyper Transport Tunnel로 사우스 브리지도 탑재, 이에 다양한 주변 회로나 기동용 SAS HDD 등도 이용이 가능하지만 일단 그림에서는 생략하고 있다.


얇은 블레이드 구성 2P 서버 "LS21". IBM BladeCenter LS21/LS41의 Installation and User's Guide에서 발췌


LS21과 Expansion blade의 구성


이에 조합하는 형태로 Expansion blade라고 불리는 것이 역시 같은 사이즈로 포개졌다. 이쪽의 내용은 2개의 Opteron 앞에 2개의 Hyper Transport Link x16을 커넥터 경유로 연결, 그 앞에 Broadcom의 "HT2100"이라는 Hyper Transport/PCI Express 브리지에 접속하고 있다.


"HT2100"는 원래 ServerWorks가 발매하고 있던 것으로 2001년에 Broadcom이 회사를 인수, 이 당시는 Broadcom의 제품으로 제공되고 있었다.

 

구조는 아래의 사진6 처럼 x16의 Hyper Transport Link에서 CPU와 접속하고 여기서 5ch, x24레인의 PCI Express Gen 1레인을 출력한다는 것이다.

 


Broadcom의 "HT-2100"의 카탈로그에서 발췌. 실제로 HT-2100 외에 HT-1100 사우스 브리지도 존재했지만 이는 RoadRunner에서는 사용되지 않았다



Expansion blade자신은 이를 3ch의 x8 레인이라는 구성으로 이중 2개는 이 다음에 나오는 QS22에 접속, 나머지 하나는 온보드 슬롯에 접속된다. 이 슬롯은 본래 2본분이 있는데 한쪽은 Infiniband 4x DDR 보드가 장착되어 외부의 직물에 접속되고 다른 쪽은 단순히 미사용.

 

여기서 Phase 2/3에서 어떤 구성으로 된 것인가?라는 것이 아래 그림이다. 위 절반은 Phase 1과 같지만 미사용이였던 4개의 PCI Express x8 레인의 끝에 4개의 PowerXCell 8i가 IBM 사우스 브리지 경유로 접속한다. 이 2개의 Opteron 프로세서와 4개의 "PowerXCell 8i"를 조합하는 것으로 한개의 노드를 구성했다.

 


Phase 2와 Phase 3 구성



 

배정밀도 부동 소수점 연산을 할 수 있는 Cell, 그것이 "PowerXCell 8i"


"PowerXCell 8i"는 65nm Cell의 배정밀도 부동 소수점 연산 확장판이다. 먼저 SPE는 1개당 25.6GFLOPS라는 수치를 기록하고 있지만 이는 단정밀도의 경우로 배정밀도는 1.8GFLOPS에 불과했다.


요컨대 단정밀도 부동 소수점 연산밖에 고려하지 않아 배정밀도라면 극단적으로 성능이 떨어진다. 이래서는 과학 기술 계산에는 사용할 수 없다. 거기서 배정밀도 부동 소수점 연산 능력을 강화한 것이 PowerXCell 8i.

 


"PowerXCell 8i"의 개요.  "PowerXCell와 선형 계산"에서 발췌. eDP와 X2D/DDR2 컨트롤러 때문에 전체의 코어 크기가 좀 더 넓어진

 통상 Cell의 차이점은 2가지다.


각 SPE에 새로 eDP(enhanced Double Precision)유닛을 추가하고 배정밀도 부동 소수점 연산에서 SPE 1개당 12.8GFLOPS의 연산이 가능토록 했다.메모리 컨트롤러의 X2D(XIO to DDR2)브리지를 추가하고 DDR2 메모리 컨트롤러를 탑재했다.

2번째는 원래 Cell은 아시다시피 XDR DRAM을 탑재한다. 이는 대역이 25.6GB/초로 고속 메모리 용량은(XDR DRAM에 한해서)256MB 밖에 없어 역시 이것은 과학 기술 계산에는 불 충분하다.

 

그렇다고 XDR DRAM 그대로 용량의 증가는 어렵다. 대용량의 XDR DRAM은 존재하지 않으며 XDR DRAM의 구성상 메모리 확장성이 한정됐기 때문이다.

 

거기서 XDR DRAM용 XIO라는 I/F에 DDR2와 프로토콜 변환을 하는 X2D는 브리지를 경유하여 DDR2 DIMM을 장착하도록 했다. 전송 성능이 다소 낮아지더라도 탑재할 수 있는 메모리 용량을 대폭 늘릴 수 있게 됐다(이론상 칩당 16GB).

 

이 PowerXCell 8i를 2개 탑재한 블레이드가 "QS22"로 불린다. IBM은 한개의 이용에 대비하고, PowerXCell 8i 근처에 풍부한 회로를 구현했지만 RoarRunner는 주변 회로는 거의 이용되지 않고 또 DIMM 용량도 PowerXCell 8i 1개당 4GB다.


"QS22"의 개요. 이쪽에서 직접 Infiniband HBA 및 GbE에서 접속이 가능한 구성이다


내부는 아래 사진처럼 되어 있다. RoadRunner는 3종류 4개의 블레이드를 만들어 1노드로 했다.



"QS22"의 사진. 중앙의 구리 히트 싱크 밑에 PowerXCell 8i가 위치한다. 이하의 출전은 "Roadrunner:Hardware and Software Overview"(IBM Redbook) 발췌 RoadRunner는 3종류 4개의 블레이드를 만들어 IBM은 이를 "TriBlade"라 밝혔다


노드 당 성능은 PowerXCell 8i의 SPE만을 사용한 경우 409.6GFLOPS, PPE도 참여시키면 435.2GFLOPS다. 또 Opteron에도 만일 계산을 시켰다면 이론상으로는 14.4GFLOPS 정도가 추가 되지만 역시 여기까지 쓰는 경우는 없었다.

 

PPE코어도 계산에 맞추면 SPE코어의 제어가 늦고 프로그래밍이 어려운 것도 있어 오직 SPE에서 계산하고, PPE는 SPE제어 Opteron은 데이터 입출력 등에 전념한 형태다.

 

일단 1개의 Opteron 코어로 1개의 PowerXCell 8i가 짝을 이루고 메모리도 코어 주변 4GB에 갖춘 것은 이 근처를 프로그래밍에서 쉽게 다룰 수 있도록 하겠다는 배려로 생각한다.

 

랙 하나에는 이 TriBlade가 12개 인입되고 이것이 1개로 4915.2GFLOPS로 약 5TFLOPS이므로 이것을 200개 늘어놓으면 1PFLOPS.

 


랙의 구조. 하얀 블레이드는 미사용 슬롯으로 보인다


실제로는 Compute Rack와 I/O+Compute Rack, 그리고 Switch&Service Rack 16개로 1개의 Connection Unit이라고 불리는 그룹을 형성했다.



Connection Unit 구성. I/O에는 IBM의 X3655가 이용됐다. 이는 Opteron 2218을 듀얼로 탑재하는 블레이드에서 RAIO 컨트롤 등도 탑재한다


1개의 Connection Unit에는 180개의 TriBlade(=노드)가 장비된 것으로 Connection Unit당 73.7TFLOPS 정도가 된다.

 

이 1개의 클러스터 인당 1개 288포트 Infiniband Switch가 탑재되면서 Connection Unit 내의 노드는 1hop으로 다른 노드와 연결된다. 참고로 288포트 중 180포트는 직접 각 노드에 12개는 I/O 노드에 연결되고 나머지 96포트가 상위 스위치에 연결된다.

 


이는 Roadrunner Technical Manager의 Ken Koch씨의 논문 "Sweep3D(Sn transport)&other key Roadrunner applications"에서 발췌. 노드 수가 많은 것은 I/O 노드도 포함하고 있기 때문.(180 TriBlade+12 I/O)×18=3456


Infiniband 자체는 x4 DDR이므로, 신호 속도 자체는 20Gbps인데 Embedded Clock을 사용하기 위한 실질적인 데이터 전송 속도는 16Gbps이다.

 

Connection Unit은 모두 18개로 이 Connection Unit들은 8대의 Infiniband Switch에서 상호 접속되지만 각각의 Connection Unit과 Switch 사이는 12링크로 연결되는 Fat Tree로 구성되어 있다. 피크 성능 1.3PFLOPS를 넘는 시스템이 이것으로 완성된 형태다.

 

 

실효 성능으로 1PFLOPS을 넘겨

시스템은 2008년 5월 뉴욕에 있는 IBM의 공장에서 풀 시스템으로 생산되고, 그 후 뉴 멕시코 로스앨러모스 국립 연구소에 여름 쯤에 납품됐다. 이 공장에서 생산된 시점에서 실효 성능으로 1PFLOPS을 넘겨 2008년 6월 TOP500에서 BlueGene/L를 넘어서고 No.1를 차지했다.

 

로스앨러모스 국립 연구소에 납품 후에는 약간의 성능 개선을 달성해 2009년 6월까지 TOP500에서 1위 자리를 지켰다.

 

그 후로는 다소 구성을 바꾼 상태로 운용된 것 같지만 2012년 11월 시점에서도 아직까지 22위에 랭크되어 있는 것은 절대 성능이 꽤 강력한 머신이었던 것은 틀림 없다.

 

효율은 이론 성능의 1375.8TFLOPS에서 실효 성능 1042.0TFLOPS로 76%에 가까운 것으로 나쁘지 않다. 1042TFLOPS에서 소비 전력은 2345KW로 성능/소비 전력비는 444.3KFLOPS/W로 이쪽도 뛰어나게 좋은 숫자였다.

 

하지만 이후 등장한 HPC 머신은 더 좋은 성능/소비 전력비를 실현했기 때문에 로드러너(RoadRunner)의 소비 전력은 과거로 여겨졌다.

 

실제로 2012년 11월 TOP500을 보면 RoadRunner에 이어23위의 머신인 에든버러 대학에 놓인 BlueGene/Q 베이스의 DiRAC는 1035.3TFLOPS를 불과 493KW로 실현하고 있다. 결국 이 소비 전력이 걸림돌이 되어 2013년 3월말에 RoadRunner의 가동은 종료됐다.

 

참고로 IBM은 이 PowerXCell 8i를 확장한 원칩으로 TFLOPS를 실현할 수 있는 CPU를 계속 개발하고 있었다. 구체적으로는 PPE× 2+SPE× 32의 "PowerXCell 32ii", 그리고 PPE× 4+SPE× 32의 "PowerXCell 32iv"로, 최종적으로 이들 프로세서는 세상에 나가지 못하고 사라졌다.

 


출처 - http://ascii.jp

반응형
Posted by 랩터 인터내셔널

이번에는 QCDOC를 바탕으로 만들어진 블루진(Blue Gene)계열의 이야기다.


Blue Gene/L


전회도 조금 언급했으나 원래 IBM은 1999년에 Protein Folding(단백질 구조 해석)을 목적으로한 1억달러 규모의 연구 개발 프로젝트를 시작한다.


이 프로젝트는 Protein Folding의 메커니즘을 대규모 시뮬레이션으로 규명하는 것이 목적이지만 이와 함께 Massively Parallel(초병렬) 하드웨어와 소프트웨어를 구축할 목적이었다.

 

Protein Folding의 시뮬레이션을 위해서는 1PFLIOS규모의 머신이 필요하다는 것으로 프로젝트의 최종 목표는 1PFLOPS의 머신을 구축하는데 있었다.


1999년이라고 하면 ASCI Blue Pacific/Blue Mountain이 운용을 시작한 해로 ASCI Blue Mountain이 실효 1.6TFLOPS, Blue Pacific에서도 실효 2.1TFLOPS라는 근방으로 1PFLOPS라고 하면 이것보다 500~600배의 성능을 내야 하기 때문에 이를 일약에 실현하는 것은 도저히 무리다. 여기서 당초 300TFLOPS규모의 머신(Blue Gene/L)을 실현하는 것을 목표로 하였다.

 

 

저비용으로 고성능을 요구한 Blue Gene/L

그런데 그 최초의 Blue Gene/L의 설계 목표는 높은 성능/비용대비를 실현하는 것에 성능/소비 전력비나 성능/부피비를 향상시키는 것도 목표에 내걸렸다. 최초의 두 가지는 이해하기가 쉽지만 마지막 성능/부피비는 별로 익숙하지 않을 것이다.


이는 ASCI 시스템이 모두 10000평방 피트를 넘는 방대한 설치 면적을 필요로 했다는 것에 대한 반성이다. 전회 소개한 QCDOC가 100평방 피트 정도로 유지되고 있는 것은 시스템의 운용 비용이라는 점에서도 메리트는 크다.

 

그리고 설치 면적이 크면 노드 간을 둘러싼 배선의 거리도 길어진다는 점에서 이는 그대로 레이턴시와 소비 전력의 증대로 이어진다. 그러므로 가급적 배선 거리는 짧게 하고 싶고, 그러려면 필연적으로 설치 면적을 제한하는 방안이 필요하다.

 

Blue Gene/L은 이런 점을 감안하고 기존의 슈퍼 컴퓨터를 크게 웃도는 성능/소비 전력비를 목표로 하는 것을 목표로 내걸었다.


 

 

Blue Gene/L의 목표. 이 도표에만 2002년에 있는 "QCDSP Columbia/IBM"은 QCDOC의 잘못이다. 또한 이번 도표의 출전은 모두 IBM Journal of Research and Development의 Volume 49, Number 2/3, 2005이다


이를 실현하기 위하여 QCDSP/QCDOC의 생각을 발전시키게 되었다. 성능 목표는 360TFLOPS에 이를 20MW정도의 소비 전력으로 충당한다는 것이다.

 

PowerPC 440코어와 소용량 캐시를 채용

이 목표를 어떻게 실현할 것인지에 대한 기본은 QCDOC와 마찬가지로 PowerPC 440코어를 이용하고 있다. 이에 독자적인 Double-hummer FPU을 조합한 것이 1코어다.

 

칩 자체는 이 코어를 2개에 2차 캐시 ×2, 이어 eDRAM을 사용한 4MB의 3차 캐시, 추가로 외부 접속용 네트워크와 DRAM 컨트롤러 등을 통합하고 있다.


 

 

Blue Gene/L의 칩 구조. Multiport Shared SRAM은 용량이 16KB지만 이것은 캐시용이 아니라 프로세서간 통신용 Scratch Pad


이로써 DRAM을 제외하면 사실상 1칩으로 2개의 계산 노드를 통합할 수 있다. 제조 공정이 8SF(130nm)가 이용되고 있지만 작동 주파수는 700MHz로 소극적으로 되어 있다. 이것은 CPU 코어의 소비 전력 타깃이 1W이며 이에 맞추어 조정한 형태다.

 

2차 캐시의 구조도 재미있다. 위의 사진으로 L2 prefetch buffer라고 쓰여 있는 것은 용량이 2KB 밖에 없어서 32KB의 1차 캐시와 비교해도 꽤 적다. 당연히 Inclusive 구조에는 못미치고 Exclusive한 구조를 하고 있다.

 

왜 이런 소용량의 캐시를 추가했냐고 하면 Cache Snooping때문이다. PowerPC 440 자체는 싱글 코어 CPU인 것으로 멀티 프로세서의 대응이 들어 있지 않다.


구체적으로는 Cache Snoop의 기능을 갖고 있지 않아서 외부에 공유 캐시를 일체 갖지 못하게 된다. 이를 커버하기 위해서 Cache Snoop의 기능을 2차 캐시에 넣었다.

 

어디까지나 Snooping을 목적으로 하고 있으니 용량은 적어도 좋고 이 때문에서인지 L2 Cache가 아니라 L2 Prefetch Buffer로 칭한다.

 

용량 자체는 embedded DRAM을 이용하고 4MB 자체 대용량을 L3 온 칩으로 탑재했으며 게다가 이것은 충분히 고속이다.

 

Double-hummer FPU는 700MHz에서 2.8GFLOPS의 연산 성능을 갖지만 Double의 경우에는 이것을 최대한 사용하는 경우에는 이하의 처리가 발생하게 된다.

 

  • 데이터를 5.6GB/초 ×2에서 읽기
  • 연산 결과를 5.6GB/초에 시작

위의 사진을 보면 알 수 있듯이 CPU 코어와 2차/3차 캐시를 잇는 버스는 이 대역에 맞게 설계된다. 요컨대 이는 병목이 되지 않도록 설계되어 있는 셈이다. 무엇보다 대역 레이턴시는 다음과 같은 숫자로 되어 있으며 2차/3차 캐시는 나름대로 레이턴시가 크다.


캐시와 레이턴시의 관계
1차 캐시 3사이클
2차 캐시 11사이클
스크래치 패드 15사이클
3차 캐시 28/36/40사이클
DRAM 86사이클


오히려 DRAM이 이상하게 고속이라고 해야 할지 모르지만 이는 3차 캐시를 경유했을 때의 숫자로 3차 캐시를 경유하지 않으면 좀 더 늘어날 것으로 생각된다.


 

병렬 연산을 위한 2개의 FPU와 1GB의 DDR SDRAM으로 1장의 카드를 구성


다음은 FPU다. Blue Gene/L에서는 FPU를 2개 탑재하고 있지만 이는 QCDOC의 FPU가 2개 나란히 있다기 보다는 QCDOC의 FPU 폭을 2배로 늘린 형태다.

 

내부는 프라이머리와 세컨더리 2계통으로 나뉘어 있는데 양쪽의 FPU에서 동일한 명령을 실행한다. 말하자면 FPU를 SIMD식으로 확장한 설계다.

 


FPU 구조. 레지스터 파일 자체는 Primary와 Secondary로 분리하고 있지만 각각의 연산 유닛은 양쪽의 레지스터 파일에서 데이터를 읽을 수 있게 되어 있다


다만 여러 SIMD가 예컨대 16Bytes 폭은 단정밀도 연산 ×4 혹은 배정밀도 연산 ×2를 동시에 실행할 수 있는 반면 Double-hummer FPU는 단정밀도와 배정밀도 1사이클당 2개의 연산 명령을 실행할 수 밖에 없는 것이 큰 차이다.

 

명령 중에는 MAC 연산(곱셈+가산)도 포함됐으며 이를 실행하는 경우는 1사이클에서 4연산이며 700MHz면 2.8GFLOPS다. 참고로 이 Double-hummer FPU 자체는 800MHz에서 동작을 타깃으로 설계됐다고 한다.

 


FPU의 평면도. 타이밍을 맞추느라 일부는 ASCI 게이트를 사용하지 않고 수배선에서 최적화를 시행한 것


이 Blue Gene/L은 1장의 카드에 칩 2개와 DDR SDRAM이 모두 탑재된다. 메모리는 노드, 즉 Blue Gene/L의 칩 1개당 512MB으로 알려졌다.


Blue Gene의 Compute Card.DDR SDRAM이 DIMM 슬롯을 사용하지 않고 직접 기판에 장착된 것은 슬롯을 사용함으로써 기계적인 고장이 발생하는 것을 피하기 위해서다. 유연성은 없어지지만 이는 하나의 생각이다


카드 1장당 소비 전력은 15W로 여겨지지만 Blue Gene/L의 칩 자체가 1개당 5~6W정도(코어 1W로 합계 2W, 그 외 4MB의 eDRAM과 후술 하는 I/O 연결용으로 나름 필요), DDR SDRAM이 1GB 분량으로 역시 3~4W.

 

이 카드를 Compute Card로 칭한다(다른 I/O전용 I/O Card도 존재). 이 Compute Card를 16장 장착한 것이 Node Card.

 


Compute Card를 16장 장착한 Node Card.16장의 Compute Card 외에 최대 2장의 I/O Card를 장착할 수 있지만 이 사진에는 장착되지 않은 것 같다


캐비닛에는 이 Node Card를 16장 장착한다. 이 단계에서 노드 수는 1024(코어 개수는 2048), 메모리는 512GB에 이른다. 연산 성능은 1캐비넷에서 5.6TFLOPS에 이르는 셈으로, 이론 성능만 하면 ASCI Blue Pacific의 1.5배의 성능이 불과 1캐비넷에 들어간 것이다.

 

무엇보다 1개의 Compute Card가 15W에 들어간다고 해도 이를 1000장 모으면 15KW가 되는 것으로 냉각 방법에는 노력이 필요하다. 칩 1개당 발열은 5~6W로 패시브의 히트 싱크만으로 충분히 감당하지만 이에 대해 나름대로 냉각풍을 맞출 필요가 있다.

 

거기에서 캐비닛 측면에는 60개의 냉각 팬을 설치하여 섀시를 비스듬히하여 냉각 효과를 높이는 노력이 이루어졌다.

 


Blue Gene/L의 캐비닛. 이 사진에는 오른쪽 절반 측면에 냉각 팬이 덮는다 냉각팬 배열. 3개 단위로 쉽게 교환할 수 있는 구조지만 개인적으로는 좀 더 큰 팬을 사용해도 괜찮을 듯


아래의 사진에는 설명이 필요할 것이다. 위의 사진에서 나타낸 캐비닛은 아래 사진의 파란 부분에 담긴다. 그 좌우로 기울어진 급배기 지역이 붙는 형태다.


Blue Gene/L의 섀시. 이것도 실물 모형 같은 것으로 실제로는 이 캐비닛의 배기부와 왼쪽 캐비닛의 흡입부가 겹쳐지도록 배치되어 캐비닛 간의 간격은 더 막히고 있다


이 경우 캐비닛에는 오른쪽에서 흡기(바닥에서 냉기를 공급하고 캐비닛 안에서 가열된 에어는 왼쪽으로 흘러)되어 그대로 나가는 셈이 된다.

 

이 사선 판자의 각도는 10.1도 정도 되는데 시뮬레이션에 의하면 각도가 0, 즉 비스듬히 판자가 없는 상태에서 캐비닛 내 온도는 최소 38.2℃(가장 높은 곳에서는 50℃ 이상)이던 것이 비스듬히 판자를 넣은 것으로 최저 27.0도까지 내려가게 되었다고 한다.

 


위가 기존의 방열 기구, 아래가 Blue Gene/L의 것


이른바 대류를 잘 이용하여 냉각을 하고 있는데 이 결과 Blue Gene/L의 케이스는 밖에서 보면 기울어 있다.


Blue Gene/L의 외관. 이는 디자인 컨셉의 CG, 실제로 설치된 사진이 아니다



 

네트워크는 3가지로 구성 노드간 통신은 3차원 원환 구조


자, 다음으로 네트워크 이야기를 하고 싶다. Blue Gene/L은 이 캐비닛을 64개 나열하고 이론 성능에서 367TFLOPS를 실현하고 있는데 노드 수는 65536에 이르러 적절한 네트워크로 접속하지 않으면 성능이 나오지 않는다.


거기서 Blue Gene/L에는 여러 종류의 네트워크가 조합되어 있다. 노드간 통신의 기본은 3차원 원환 구조이다. 이는 아래의 사진(a)처럼 각각의 노드를 3차원 구조로 접속하는 것으로 Blue Gene/L에서는 8×8×8이 기본이다.

 


Blue Gene/L의 네트워크. 3종류의 네트워크가 존재


노드 수에서 말하면 512로 딱 캐비닛의 절반에 해당한다. 또한 BlueGene/L에서는 이를 midplane이라고 말하고 있다. 첫번째 페이지에서 나타낸 Blue Gene/L의 칩 구조 사진에서 "Torus"라고 적힌 유닛이 이 3차원 원환 구조용 링크로 송수신 각각 1.4Gbps로 접속된다.

 

Blue Gene/L 전체에서는 이 midplane이 128개 존재하지만 Blue Gene/L은 이 midplane을 1개의 Partition으로 취급하고, 복수의 midplane을 이용하는 경우에는 프로그램 측에서 이를 처리한다(즉 midplane자체를 확장하지 않는다)라는 형태로 제약을 마련하고 있다.

 

이는 복수의 섀시에 걸쳐서 동기를 취하거나 하면 거기가 병목이 될 것이므로 어디까지나 1개의 처리는 1개의 midplane에서 이루는 것이며 여러 midplane를 사용할 경우에는 처리 자체를 각각 분할하려는 방식을 취했다.


midplane끼리는 Link Chip으로 불리는 전용 ASIC을 경유하여 케이블로 접속된다. Link Chip의 제조 프로세스는 130nm의 "Cu-11"를 이용해서 제조되고 있으며 4종류의 동작 모드를 갖는다.

 


Link Chip의 구조. 이는 파티셔닝 때 일일이 배선을 연결해 바꾸지 않더라도 동작 모드를 변경함으로써 자신을 그 파티션에 더하거나 빼거나 하는 것. 덧붙여 그림에서는 Port E가 사용되지 않게 되어 뭔가 이상했다


Regular와 Split라는 2종류의 케이블은 midplane간을 잇는 것이지만 통상의 가로 세로 하락 방향의 배선이 Regular, 그 규칙에서 벗어난 것이 Split이다.

 

이 Link Chip들 또한 3차원 토러스를 구성하는 형태로 되어 있는데 예를 들면 아래의 사진처럼 1~8 사용자가 있어 각각 따로 파티션을 사용하고 싶은 경우 6~8 사용자는 가로 방향에 전체를 물리적으로 잡아 버리면 파티션을 구분할 수 없어 6/7/8의 경계만 가로 방향은 Split케이블을 이용하여 분리하게 된다.

 


이는 Blue Gene/L 시스템을 위에서 바라본 그림. 사각은 각각 섀시라고 생각하자


참고로 이 3차원 원환은 1노드 당 평균 100나노초의 레이턴시가 필요하다. 그래서 65536개의 모든 노드에 데이터를 송신할 경우 대체로 6.4마이크로초 정도 필요하다.


그런데 이야기를 3종류의 네트워크로 되돌리면 이와 별도로 Collective Network라 불리는 것(b)의 형태)가 있다.

 


Blue Gene/L 네트워크


이곳은 전 노드에 브로드캐스트를 할 경우 등에 사용하는 것으로 대역은 2.8Gbps, 레이턴시는 5마이크로초 미만으로 된다. 이것이 첫번째 페이지에서 나타낸 칩 구조의 사진에 있는 Collective라는 유닛을 이용한다.

 

또 Barrier Network라 불리는 것도 별도로 마련되어 있다. 이것은 시스템의 동기를 취하기(각 노드가 즉시 동작을 중지) 위한 것으로 노드 수가 65536이라도 1.5마이크로초 미만에서 동기를 할 수 있도록 설계되고 있다.

 

이상의 3개가 애플리케이션 사용의 네트워크인데 외에 GbE, 그리고 디버깅용 JTAG가 별도로 네트워크로 준비되어 있다. 위의 사진(c)이 그것이다.

 

 

복수의 시설에 납입해 상업적으로도 성공을 거두었다

이런 연구에 의해서 Blue Gene/L은 높은 성능을 발휘했다. Blue Gene/L 최초의 시스템은 로렌스 리바모아 국립 연구소에 납품됐지만 우선 4캐비닛(8192코어)가 가동된 단계에서 11.68TFLOPS를 발휘하고 TOP500의 4위를 차지, 16캐비닛(즉 정격의 4분의 1)가 가동된 2004년 11월에는 70.72TFLOPS를 발휘하여 TOP500의 1위 어스 시뮬레이터를 넘어선다.

 

절반이 가동된 2005년 6월은 실효 성능 136.8TFLOPS, 풀 가동했던 2005년 11월은 실효 성능 280.6TFLOPS를 발휘, 이후 2007년 11월까지 1위 자리를 계속 유지했다.


추가로 이 풀스펙 구성에서 이론 성능 367TFLOPS은 280.6TFLOPS이므로 효율은 76.5%로 그렇게 나쁘지 않고 성능/소비 전력부터보면 280.6TFLOPS를 1433KW에서 실현되고 있는 것이며 191.5KFLOPS/W라는 계산으로 QCDOC과 비교해도 3.8배 정도 성능/소비 전력 비율이 개선되고 있다.


이후 로렌스 리바모아 국립 연구소는 섀시를 104개까지 증강하고 피크 성능을 596TFLOPS까지 올리며 보다 작은 시스템이 각처에 납품되고 있다.

 

예를 들면 2006년 11월 TOP500 리스트를 보면 로렌스 리바모아 국립 연구소 이외에 100위 이내만 14개 시스템이 납품되고 있다.

 


 

TOP500에서 100위 이내에 랭킹에 오른 Blue Gene/L
순위 코어 개수 내용
3 40,960 IBM Thomas J. Watson Research Center
17 12,288 ASTRON/University Groningen, Netherlands
21 8,192 Computational Biology Research Center, AIST
22 8,192 Ecole Polytechnique Federale de Lausanne, Switzerland
23 8,192 High Energy Accelerator Research Organization /KEK
24 8,192 High Energy Accelerator Research Organization /KEK
25 8,192 IBM Rochester, On Demand Deep Computing Center
42 6,144 UCSD/San Diego Supercomputer Center
61 4,096 EDF R&D, France
61 4,096 EDF R&D, France
62 4,096 Harvard University
63 4,096 High Energy Accelerator Research Organization /KEK
64 4,096 IBM Almaden Research Center
65 4,096 IBM Research, Switzerland
66 4,096 IBM Thomas J. Watson Research Center


안에는 KEK처럼 3시스템(MOMO/Sakura/Ume)을 운용한 곳도 있어 상업적으로도 성공한 부류로 취급해야 할 것이다.


이 Blue Gene/L의 성공으로 다음에 Blue Gene/P 개발이 시작되고 이에 영향을 받아 Blue Gene/C, Cyclops64의 개발도 2004년에 시작됐지만 이는 다른 기회에 설명한다.

 


출처 - http://ascii.jp

반응형
Posted by 랩터 인터내셔널