'글로벌 IT 뉴스'에 해당되는 글 1093건

  1. 2016.03.02 최고 수준의 유기EL 디스플레이용 청색 재료 개발 (DABNA) by 랩터 인터내셔널
  2. 2016.03.02 ISSCC 2016) GDDR5,HBM2,Wide-IO2 메모리(삼성,SK 하이닉스) by 랩터 인터내셔널
  3. 2016.03.02 콘솔 수준으로 GPU를 제어하는 AMD의 GPUOpen 전략 by 랩터 인터내셔널
  4. 2016.03.02 CES 2016 기조강연) 인텔 큐리 출하등 새로운 비즈니스를 어필한 인텔 by 랩터 인터내셔널
  5. 2015.12.03 빅데이터 플래시 시스템, 샌디스크 인피니플래시 by 랩터 인터내셔널
  6. 2015.12.03 DELL, 13세대 파워엣지 엔트리급 R330-R230 발표 by 랩터 인터내셔널
  7. 2015.12.03 포티게이트 NGFW 신모델 FortiGate-3200D, 600D 투입 by 랩터 인터내셔널
  8. 2015.12.03 ARM 아르테미스 CPU(Artemis) by 랩터 인터내셔널
  9. 2015.12.03 화웨이 기린 950, Cortex-A72를 세계 최초로 상용화한 모바일 SoC 1 by 랩터 인터내셔널
  10. 2015.10.22 스카이레이크 내장 그래픽, 실행 모델을 변경 by 랩터 인터내셔널

LED1.png

 

 

과학 기술 진흥 기구(JST), 간세이 가쿠인 대학, JNC 주식 회사는 세계 최고 수준의 발광 효율과 색순도를 가진 유기 EL 디스플레이용 청색 발광 재료 "DABNA"을 개발했다고 발표했다.


현재 유기 EL 디스플레이용 발광 재료로는 형광 재료, 인광 재료, 열 활성화 지연 형광(TADF)재료 3가지 종류가 이용되고 있는데 형광 재료는 색순도가 높은(발광 스펙트럼의 반값 폭)것의 발광 효율이 25~37.5%로 낮고, 인광 재료와 TADF 재료는 발광 효율은 높지만 발광의 색순도가 낮은(발광 스펙트럼의 폭이 넓다)라는 문제를 안고 있다.

 

디스플레이의 표시는 빨강/녹색/푸른색(RGB)의 3원색 합성을 이용하고 있는데 발광 소자의 색순도가 낮은 경우 색 재현성이 나쁜 저화질이 된다. 그 대책으로서 휘선 스펙트럼에서 불필요한 빛을 광학 필터로 제거하여 색순도를 향상시키고 있지만 시판중인 스마트폰의 청색 발광 스펙트럼의 반값폭인 약 20~25nm에 대한 형광 재료는 약 40~60nm, 인광 재료는 약 60~90nm, TADF 재료로 약 70~100nm으로 본래의 스펙트럼 폭이 넓으면 제거하는 비율도 증가하기 때문에 발광 효율이 높은 경우 결과적으로 실질적인 효율은 크게 저하된다.

LED2.png

이번 연구진들은 높은 발광 효율과 색순도를 겸비한 발광 재료를 실현하기 위해 붕소와 질소의 다중 공명 효과를 이용했다. 그 결과 발광 스펙트럼의 반값 폭이 28nm이라는 높은 색순도의 형광 재료를 능가하는 세계 최고 수준의 색순도를 갖고 발광 효율이 최대 100%에 달하는 TADF "DABNA"의 개발에 성공했다.

 

DABNA는 붕소, 질소, 탄소, 수소라는 흔한 원소만으로 이루어진 점, 시판의 원재료로부터 짧은 공정에서 합성할 수 있는 점 등의 우위성을 지님으로써 이상적인 유기 EL 디스플레이용 발광 재료로 실용화에 의한 유기 EL 디스플레이의 대폭적인 저전력화와 고색영역화를 기대할 수 있다.


출처 - http://pc.watch.impress.co.jp/docs/news/yajiuma/20160212_743309.html

반응형
Posted by 랩터 인터내셔널
photo001_s.jpg
ISSCC 2016에서 공개된 고속 DRAM기술의 개요

 



차세대 그래픽 메모리나 모바일 메모리 등을 겨냥한 초고속 DRAM 기술의 개발 성과가 최첨단 반도체 기술 국제 회의 "ISSCC 2016"에 공개됐다. DRAM 최고 대형 벤더사인 삼성전자와 DRAM 대형 벤더인 SK 하이닉스가 각각 2건씩 개발 칩을 발표했다. 삼성 일렉트로닉스는 GDDR5 메모리와 HBM2, SK 하이닉스는 HBM2와 Wide-IO2 메모리를 각각 선보였다.

     

싱글 엔드 핀당 9Gbit/sec의 초고속 GDDR5 메모리

삼성전자는 입출력 핀당 데이터 전송 속도가 9Gbit/sec으로 매우 높은 GDDR5 DRAM을 개발하고 기술 개요를 발표했다(강연 번호 18.1). "GDDR5"는 그래픽용 고속 메모리 규격 사양인 "GDDR(Graphics Double Data Rate)"의 제 5세대를 의미한다. GDDR 시리즈 규격 사양은 업계 단체 JEDEC이 책정을 계속했다. GDDR5 DRAM 양산 출하는 2008년에 시작됐고 그래픽용 DRAM으로서는 꽤 긴 역사를 갖고 있다.

    

photo002_s.jpg
입출력 핀당 데이터 전송 속도가 9Gbit/sec으로 매우 높은 GDDR5 DRAM의 실리콘 다이 사진(왼쪽)과 주요 사양(오른쪽). ISSCC 2016 강연 슬라이드



9Gbit/sec라는 데이터 전송 속도는 싱글 엔드 출력의 메모리 반도체에서는 최고 속도의 가능성이 높다. 삼성은 2011년 ISSCC(ISSCC 2011)에서 입출력 핀당 데이터 전송 속도가 7Gbit/sec으로 높은 GDDR5 DRAM을 제작 발표하고 있다.(논문 번호 28.6) 이 속도도 당시 반도체 메모리의 싱글 엔드 출력으로 역대 최고 속도라 보이고 있었는데 5년만에 최고 속도 기록을 새로 쓴 것이다.

    

photo003_s.jpg
삼성이 2011년 ISSCC에서 발표한 입출력 핀당 데이터 전송 속도가 7Gbit/sec으로 높은 GDDR5 DRAM의 실리콘 다이 사진(왼쪽)과 주요 사양(오른쪽). ISSCC 2011 논문



5년전 ISSCC에서 삼성이 발표한 GDDR5 DRAM은 기억 용량이 2Gbit, 입출력 버스폭이 32bit, 데이터 전송 속도가 28GB/sec, 실리콘 다이 면적이 80.6평방mm, 제조 기술이 40nm CMOS. 이번 ISSCC에서 삼성이 발표한 GDDR5 DRAM은 기억 용량이 8Gbit, 입출력 버스폭이 32bit, 데이터 전송 속도가 36GB/sec, 실리콘 다이 면적이 62.04평방mm, 제조 기술이 20nm CMOS로 나타났다. 기억 용량은 4배로 늘고 데이터 전송 속도는 약 1.3배 향상, 제조 기술은 50% 미세화되고 기억 밀도는 5.2배로 늘었다.

     

300GB/sec의 초 광대역을 실증한 HBM2 DRAM

GDDR5 DRAM의 고속화는 교착 상태를 맞고 있다. 삼성은 이번 ISSCC에서 빠른 성능을 더욱 향상시켰다고해도 매우 고도의 기술을 여러가지 구사하고, 오히려 고속화가 매우 어려워지고 있는 상황을 알리게 된 감이 있다.


GDDR5 DRAM을 대체하는 것을 목적으로 업계 단체 JEDEC이 기술 사양을 책정한 고속 메모리가 HBM(High Bandwidth Memory)이다. ISSCC 2016에서는 HBM의 제 2세대("HBM Gen2" 혹은 "HBM2"라 지칭)에 해당하는 DRAM의 개발 성과를 삼성전자(강연 번호 18.2)와 SK 하이닉스(강연 번호 18.3)가 각각 발표했다.

 

HBM은 2장 또는 4장, 8장의 DRAM 실리콘 다이를 TSV(실리콘 관통 전극)기술로 적층 하는 8채널 ×128bit(128핀)의 넓은 입출력 버스를 갖춤으로써 데이터 전송 속도를 향상시킨다. 1세대 "HBM Gen1(HBM1)"은 핀당 데이터 전송 속도는 1.0Gbit/sec이다. GDDR5 와 DDR4 등의 DDR 시스템 메모리에 비해 핀당 데이터 전송 속도를 낮춤으로써 출력 드라이버의 설계와 제조를 쉽게 받아 실리콘 다이의 수율 향상과 제조 원가의 절감을 노리고 있다. 그래도 전체적으로는 128GB/sec과 DDR 시스템 메모리를 훨씬 뛰어넘는 높은 데이터 전송 속도를 갖는다.


 

photo004_s.jpg
HBM(High Bandwidth Memory)의 구조도와 대표적인 탑재 형태. HBM DRAM의 실리콘 다이를 TSV기술로 적층한 "코어 다이 접착"과 최하층의 제어 회로 "버퍼 다이"로 구성된다.  HBM과 CPU 또는 GPU의 실리콘 다이를 같은 실리콘 다이(실리콘 인터포저)에 올려 1개의 패키지에 밀봉한다. "시스템 인 패키지(SiP:System in Package)"라 부르며 소형의 고밀도의 패키지 구조다. 유의해야 할 것은 DRAM 다이의 적층들이 변화해도 HBM의 높이를 바꾸지 않도록 최상층의 DRAM 다이의 두께를 조정하고 있는 것이다. SiP의 조립 공정을 간소화하는 점에서 이 연구는 중요하다. ISSCC 2016 강연 슬라이드



HBM의 2세대 "HBM2"는 입출력 핀당 데이터 전송 속도를 2배인 2Gbit/sec으로 높임으로써 전체 데이터 전송 속도를 256GB/sec으로 2배 향상시킨 것이 주요 변경점이다. 또 풀 대역에 대한 사양이 개량됐다. 1세대 "HBM1"에서는 DRAM 실리콘 다이를 4장 또는 8장으로 적층해 처음으로 풀 대역(128GB/sec)를 낼 수 있게 됐다. 2장 적층에서는 풀 대역의 절반(64GB/sec)밖에 나오지 않았지만 HBM2는 DRAM 다이의 2장 적층으로도 풀 대역(256GB/sec)이 나올 수 있도록 아키텍처를 개량했다.구체적으로는 실리콘 다이당 입출력 버스폭을 HBM1의 256bit로부터 HBM2는 최대 512bit로 변경했다.

 

    

photo005_s.jpg
HBM1(왼쪽)과 HBM2(오른쪽)의 성능 비교표. ISSCC 2016 강연 슬라이드



ISSCC에서 발표된 HBM2의 실제 성능은 규격 사양인 256GB/sec을 넘어섰다. 삼성의 시제품이 307GB/sec, SK 하이닉스의 시제품이 301GB/sec을 달성했다. 양사 모두 완성도 높은 메모리를 제조하는 것으로 나타났다.


      

photo006_s.jpg
삼성이 개발한 HBM2의 실측 성능. 입출력 핀당 2,400Mbit/sec의 속도(전압 1V)를 얻고 있다. ISSCC 2016 강연 슬라이드
photo007_s.jpg
삼성이 개발한 HBM2의 실리콘 다이 사진과 메모리 개요. ISSCC 2016 강연 슬라이드
photo008_s.jpg
SK 하이닉스가 개발한 HBM2의 실측 성능. ISSCC 2016 강연 슬라이드
photo009_s.jpg
SK 하이닉스가 개발한 HBM2의 실리콘 다이 사진. ISSCC 2016 강연 슬라이드


고속성과 저전력을 양립시키는 Wide-IO2 메모리

고속성과 낮은 소비 전력을 양립시키는 것으로 전력 효율을 추구한 기술 사양이 "Wide-IO2" 메모리다. DDR 시스템 메모리에 비해 데이터 전송 속도를 높이고 전송 속도당 소비 전력은 낮춘 "Wide-IO2"의 기술 사양도 업계 단체 JEDEC이 책정했다. ISSCC 2016에서는 SK 하이닉스가 Wide-IO2 규격에 준거한 DRAM의 테스트 결과를 발표했다.(강연 번호 18.4)

 

Wide-IO2 메모리는 입출력 버스의 폭을 512bit(512핀)로 넓게 확보하여 고속 데이터 전송을 실행하고 핀당 데이터 전송 속도를 낮춤으로써 소비 전력을 절감하고 있다.

 

메모리의 기본 구성은 2장의 실리콘 다이 SiP(시스템 인 패키지)다. 1장은 DRAM 다이, 다른 1장은 인터포저. 인터포저에는 제어 논리 회로와 TSV 전극을 만들고 있다. 패키지 기판 위에 인터포저가 페이스 다운으로 연결되고 인터포저 뒤에 DRAM 다이가 페이스 다운으로 연결된다.



 

photo010_s.jpg
Wide-IO2 메모리의 기본 구조. ISSCC 2016 강연 슬라이드



개발한 Wide-IO2 메모리의 성능은 입출력 핀당 데이터 전송 속도가 1,066Mbit/sec, 전체 데이터 전송 속도는 68.2GB/sec이다. LPDDR4 DRAM 보다 대역이 넓다.

 

    

photo011_s.jpg
DDR 시스템 메모리와 Wide-IO 메모리의 데이터 전송 속도(대역폭) 비교. ISSCC 2016강연 슬라이드
photo012_s.jpg
Wide-IO2 DRAM의 실리콘 다이 사진과 DRAM 개요. ISSCC 2016 강연 슬라이드

출처 - http://pc.watch.impress.co.jp/docs/news/event/20160212_743223.html

반응형
Posted by 랩터 인터내셔널
01_s.png
GPUOpen으로 개발자는 AMD가 제공하는 오픈 소스 컴포넌트를 사용하여 보다 직접적인 GPU 제어가 가능하다

 


미국 AMD는 15일 라데온 드라이버나 각종 도구 등을 오픈 소스로 개발자에 공개하는 "GPUOpen"을 발표했다.

 

지금까지도 AMD는 기존 드라이버보다 로우레벨로 GPU를 제어할 수 있는 맨틀을 게임 개발 회사에 제공했지만 GPUOpen은 이를 더욱 추진한다. 맨틀은 AMD와 계약을 맺은 일부 기업에만 제공되고 있었지만 GPUOpen은 각종 비주얼 이펙트, 드라이버, 툴, 라이브러리+SDK를 오픈 소스로서 2016년초부터 깃허브(GitHub)에 공개된다. 이들을 활용함으로써 게임 개발자는 PlayStaion, Xbox, Wii 등의 게임 콘솔과 비슷한 수준의 GPU 제어가 가능하여 게임의 성능이 향상된다.


 

02_s.png
03_s.png
게임용 GPUOpen에서 실제로 제공되는 컴포넌트


또 AMD는 헤테로지니어스 컴퓨팅을 위한 새로운 컴파일러나 쇄신한 오픈 소스 리눅스 커널도 2016년 1분기부터 제공한다. 전자는 GPU용 오픈 소스 C++ 컴파일러인 HCC(Heterogenous Compute Compiler)나 CUDA를 휴대용 C++로 변환하는 HIP 등을 포함한다.

     

04_s.png
05_s.png
HPC용 컴파일러나 리눅스 드라이버도 오픈 소스로 공개


출처 - http://pc.watch.impress.co.jp/docs/news/20151215_735489.html

반응형
Posted by 랩터 인터내셔널

01.jpg


CES에서 가장 격식이 높은 기조 강연은 개막 전날 열리는 "킥 오프 키노트"로 불리는 개막식 기조 강연이다. 이 테두리는 항상 업계의 리더 기업이 맡고 있으며 Microsoft가 CES에 참여했던 시대에는 대부분 빌 게이츠 또는 스티브 발머(모두 전 회장)가 맡아 왔다. 또 시기에 따라서는 인텔이 이 부문에 등장하기도 했고 항상 마이크로소프트나 인텔이 단골 고객이다. 다만 2012년을 마지막으로 Microsoft는 CES에 출전을 하지 않고 있기 때문에 이후 2013년에는 퀄컴이 한번 담당한 뒤 2014년부터는 인텔이 개막식 기조 강연의 자리를 굳히고 있다.


 

세그웨이를 타고 등장한 크르자니크

02.jpg

CES 주최자 CTA(Consumer Technology Association)의 사장겸 CEO 게리 샤피로

 


08.jpg

인텔 CEO 브라이언 크르자니크

 


기조 강연의 첫머리에서 무대에 선것은 CES 주최자인 CTA(Consumer Technology Association)의 사장 겸 CEO 게리 샤피로. 2014년 처음 크르자니크가 기조 강연에 등장했을때 크르자니크의 성을 제대로 발음하지 못해 트러블에 휩쓸린 샤피로지만 3회째인 올해는 매끄럽게 발음하며 힘차게 그의 이름을 부르고 소개했다.

 

그렇게 불린 크르자니크는 세그웨이를 타고 등장하며  샤피로와 악수한뒤 샤피로에게 그것을 타고 퇴장하라고 지시하여 회장은 큰 웃음에 휩싸였다. 결국 미묘한 얼굴을 한 샤피로는 지시대로 세그웨이에 실려 퇴장했다.

 


04.jpg


크르자니크는 "가전은 새로운 시대에 진입했다. 그러한 가운데 인텔은 3가지 트렌드가 있다고 믿는다" 며 현재의 디지털 가전의 흐름에 대해 설명했다. 크르자니크는,     

 

  1. SMART and CONNECTED (스마트화와 상시 무선 접속)
  2. SENSIFICATION OF COMPUTING (센서를 활용한 컴퓨팅)
  3. AN EXTENSION OF YOU (새로운 활용 사례 제안)


3가지를 현재의 가전 제품 트렌드로 규정하고 각각 "실로 혁명적인 일이 일어나고 있다" 며 다양하며 즐거운 변화가 일어나고 있다고 지적했다. 인텔은 드론을 이용한 불꽃쇼 영상을 선보이며  많은 드론을 멀티 채널로 조작하면서 보인 시연이 기네스 기록에 등재된 것을 설명했다.

 

그런 가운데 이번 기조 강연에서는 스포츠의 IT의 활용, 건강 촉진 활동, 창조력 개방이라는 3개 분야의 실례에 대해서 소개했다.


 

09.jpg


 


큐리 제품판 출하 개시, 각종 스포츠 등으로 실시간 탐사가 가능

스포츠라는 분야에서는 인텔이 주최하는 세계 수준의 e스포츠 대회 Intel Extreme Masters의 대응을 소개하고 Rainbow Six Siege(레인보우 식스 시즈)의 대회에서 유일하게 여성 게이머로만 구성된 팀의 대표가 무대에 등장해 크르자니크와 게임에 대한 시연를 벌였다.

 

이 팀은 인텔이 스폰하는 여성 프로게이머 팀으로 RealSense의 3D기능을 이용해서 자동적으로 배경을 잘라내고 여성 게이머의 얼굴만 Twitch에 실시간으로 반영하는 시연을 보였다. 또 RealSense 카메라를 이용해 크르자니크의 얼굴 데이터를 게임 캐릭터에 반영시키는 시연, 그리고 3D 카메라로 촬영한 스포츠의 영상을 이용하여 시청자가 앵글을 자유롭게 바꾸는 시연 등이 진행됐다.


13.jpg

인텔은 e스포츠에 주력하고 있으며 세계적인 대회 Intel Extreme Masters를 운영


 

계속해서 크르자니크는 지난해(2015년) CES 2015에서 인텔이 발표한 Curie(큐리)에 대한 설명을 했다. 크르자니크는 "지난해 발표한 큐리는 10달러 이하의 가격 설정으로 출하를 시작했다" 며 이미 큐리 제품판의 출하가 시작됐다고 밝혔다. 그리고 CES 2015 기조 강연에서도 보인 BMX 자전거에 큐리 모듈을 내장하고, BMX 자전거의 움직임 등을 모션 센서 등을 이용하여 데이터화하는 기능을 시연하고 지난해처럼 BMX 자전거가 날아오르는 중간 사이에 크르자니크가 서있서도 괜찮다는 곡예를 선보였다.


26.jpg

BMX 자전거의 데이터가 실시간으로 수집되며 화면에 표시

 


올해는 다른 하나의 구체적인 예로 스노우 보드 경기인 XGAMES의 실례로 스포츠 방송국 EPSN 사장이 XGAMES의 큐리 이용 방법을 소개했다. EPSN에 의하면 남자 스노우 보드의 슬로프 스타일과 빅 에어 두 경기에서 스노우 보드에 큐리 모듈을 탑재해 공중 회전 점프 높이와 거리, 속도, 착지시 힘이 걸리는 법 등의 데이터를 실시간으로 시청자들에게 보이게 할 수 있다고 했다.


그 뒤 음료 메이커 Red Bull의 자회사로 다양한 문화와 라이프 스타일을 소개하는 Red Bull Media House의 CTO가 등단하고 스포츠 선수의 몸에 큐리를 이용한 센서를 장착함으로써 선수에 걸린 G 와 속도 등을 실시간으로 관객이 확인할 수 있게 되고 쇼 등을 지금보다 더 즐길 수 있다는 점을 어필했다.


Curieを使ったセンサーが入ったスノーボード競技の中継

큐리를 사용해 센서가 들어간 스노우 보드 경기 중계

 


오클리의 스마트 아이웨어, New Balance를 소개

이어 건강 촉진이라는 관점에서는 2개의 스포츠 브랜드와의 제휴가 강조됐다. 하나는 지난해 CES에서 발표된 Oakley(오클리) 와의 제휴다. Oakley와 인텔이 공동으로 개발한 음성으로 조작할 수 있는 실시간 지도 기능을 갖춘 스마트·아이웨어 "Radar Pace"가 소개됐다. 요컨대 훈련용 선글라스라고 하지만 훈련시 이렇게 하는 것이 좋다는 분석과 피드백과 같은 것이 선글라스에 출력되는 스마트 기능이 장착된 것이다. IRONMAN에 3번의 세계 챔피언에 오른 크레이그 알렉산더가 단상에 올라와 시연을 보였다.


トライアスロンの世界的な大会であるIRONMANで3度の世界チャンピオンに輝いたクレイグ・アレクサンダー氏によるスマート・アイウェアのデモ

세계적인 대회 IRONMAN에서 3번의 세계 챔피언에 오른 크레이그 알렉산더에 의한 스마트·아이웨어 시연

 


다른 하나는 "NB"의 로고로 잘 알려진 스포츠 용품 브랜드 New Balance와의 제휴다. New Balance CEO가 단상에 올라와 공동으로 개발한 RealSense를 이용해 제작한 3D 프린팅에 의한 커스텀 메이드의 중간창을 갖춘 운동화를 시연했다. 그 신발들은 두 CEO가 실제로 신었고 2016년 연말의 판매 경쟁을 위한 스포츠용 스마트 워치를 개발할 계획임을 공표했다.

 

또 DAQRI가 개발한 스마트 헬멧도 소개되면서 헬멧에 내장된 AR(증강현실) 기능을 이용하여 엔지니어가 고장 난 곳을 발견하면 그 수리 방법을 헬멧의 디스플레이에 표시해 수리하는 모습 등이 시연됐다.


DAQRIが開発したスマートヘルメット

 

DAQRI가 개발한 스마트 헬멧


Yuneec의 타이푼H 라는 리얼센스 탑재 드론이 올해 상반기 발매

창조력의 개방과 주제에서는 몇가지가 발표됐다. 그래미상을 주최하는 The Recording Academy와의 다년에 걸친 파트너십으로 6회 그래미상 수상 아티스트인 레이디 가가와 인텔이 협업해 기술 개발을 진행하고 있다고 어필했다.


또 미국의 TV 배급사인 MGM 텔레비전&디지털 그룹의 사장인 마크 버넷이 등단해 인텔과 MGM 텔레비전&디지털 그룹이 공동으로 진행하는 메이커 전용 컨테스트 "America's Greatest Makers"에 관해 소개했다.

 

이 밖에 크르자니크는 Yuneec사의 드론인 Typhoon H(타이푼)을 소개했다. Typhoon H은 4K 카메라가 하부에 장착되어 있으며 리얼센스 카메라를 탑재하고 그것을 이용한 충돌 회피 기능이 준비되어 있다. 이 드론은 금년 전반에 판매가 시작될 예정. 또 Ninebot의 세그웨이를 소개하고 아톰 프로세서와 리얼센스 카메라를 탑재하여 장애물이 있더라도 자율적으로 회피하고 주행하는 모습이 시연됐다.


 

Yuneec社のドローンである Typhoon H(タイフーンエッチ)

Yuneec사의 드론 Typhoon H(타이푼)


다이버 시티나 온라인 학대 방지, 컨플릭트 프리 실현 등에 임한다

강연 말미에 크르자니크는 그가 이끄는 인텔이 지난해부터 임하고 있는 다양성의 확보 추진 성과를 발표했다. 다양성은 많은 기업 간부에 남자가 많거나 소수 민족의 채용이 진행되지 않거나 하는 다양성이 확보되지 않는다는 지적에 대한 액션을 의미한다. 일본에서도 정부의 "모든 여성이 빛나는 사회 만들기" 등의 대처가 열리는 등 세계 각국에서 다양성의 대처가 주목되고 있다.


인텔은 올해 온라인 해러스먼트로 불리는 온라인 행위 방지를 위한 미국 매체인 Vox Media와 Re/code, Born This Way Foundation과 협력해 새로운 계획을 책정할 것이라고 밝혔다.

 

그리고 최근 몇 년간 인텔이 임해 온 컨플릭트 프리(분쟁 지역의 광물을 사용하지 않고 제품을 생산하는 것)의 대처를 언급하면서 이미 실현한 마이크로 프로세서의 컨플릭트 프리 뿐 만 아니라 마이크로 프로세서 이외의 제품으로 확대한다고 밝혔다. 컨플릭트 프리란 콩고 공화국 등 분쟁 지역에서 산출되는 광물이 양쪽 진영의 자금원이 되기 위한 분쟁의 원인이 되고 있다는 나쁜 뿌리를 끊는 시도로 선진국 기업 상당수가 진행하는 과제다.


コンフリクトフリーはマイクロプロセッサ以外にも拡大


컨플릭트 프리를 실현하려면 인텔 자신 뿐 아니라 서플라이 체인으로 불리는 협력업체에서 원료의 제조, 납품까지 모든 과정을 포함하여 점검할 필요가 있어 그 실현에는 여러 어려움이 있지만 마이크로 프로세서 뿐 만 아니라 다른 제품에서도 컨플릭트 프리를 실현하고 그것이 제삼자 기관에 의한 증명이 이뤄질 전망임을 밝혔다.


출처 - http://pc.watch.impress.co.jp/docs/news/event/20160108_738090.html

반응형
Posted by 랩터 인터내셔널

infini.jpg


플래시 전문업체 샌디스크가 10월 26일, 3U 케이스에 최대 512TB의 플래시를 탑재하는 올 플래시 어레이 인피니플래시(InfiniFlash)를 발표했다. 인피니플래시는 빅데이터 시장을 상정하는 신형 플래시 시스템으로 대용량과 퍼포먼스를 양립시키면서 상대적으로 저렴한 가격을 실현한 제품이다.


신형 인피니플래시의 최대 특징은 512TB라는 용량으로 3U 케이스에 8TB의 플래시 모듈을 최대 64장까지 탑재할 수 있기 때문에 최대 9GB/s의 스루풋, 100만 IOPS 이상의 높은 퍼포먼스를 실현하면서 최대 8대의 서버와 접속이 가능한 것 외 소비 전력도 400~500W로 낮아지고 있다.


InfiniFlash is a massive scale-out, all-flash storage system that provides boundless scale, efficiency, and resiliency for hyperscale and cloud workloads, dramatically reducing cost and complexity


소프트웨어는 에코 시스템과 OSS에 의해 제공되어 넥센타와의 제휴로 ZFS를 바탕으로 한 Software-Defined Storage(소프트웨어 정의 스토리지) 플랫폼 NexcentaStor를 통합한다. 따라서 iSCSI/FC 인터페이스에 NFS/SMB의 파일 액세스로 높은 신뢰성, 성능, 확장성을 실현한다. 또, OSS로서 공개되고 있는 독자적인 Ceph 검증 등도 추진하고 있기 때문에 OSS와의 친화성이 향상되고 있다.


또 하나의 강력한 특징은 샌디스크 특유의 파괴적인 가격이다. 샌디스크는 제품을 수직 통합으로 제공할 수 있기 때문에 중복 배제나 압축 없이 기가바이트당 1달러의 벽을 돌파하는 것이 가능하다고 어필하며 주로 빅데이터 분석 외 미디어 등의 워크로드에 탁월하다고 밝히고 있다.


Capacity

Up to 512TB raw in 3U chassis


Performance

>780K IOPS
7 GB/s throughput


MTBF

1.5 million hours

 


Node OS

Ubuntu 14.04


Application Servers

All Linux distributions


Interconnect

SAS 2.0 6Gb/s

Hot-Swappable Hardware

Expanders, fans, power supplies, flash cards

 


Scalability - Software Specifications

Per cluster or namespace: 10s – 100s of nodes

Maximum unique objects (per cluster or namespace): 1B per device groups; no limit on device groups

Maximum replicas: 10 per unique object

Total cluster maximum: 15PB


Availability & Pricing

InfiniFlash Systems IF100, IF500, and IF700 are available now at pricing less than $1 per GB before data reduction


Sandisk InfiniFlash Data Sheet - https://www.sandisk.com/content/dam/sandisk-main/en_us/assets/resources/enterprise/data-sheets/sandisk-infiniflash-product-brief.pdf

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형
Posted by 랩터 인터내셔널

 

 

 

델(DELL)은 11월 17일, 13세대가 되는 델 파워엣지(Dell PowerEdge)서버 라인업에 엔트리 클래스급 신 모델 4제품을 출시했다.


새로운 모델은 1소켓 1U서버와 미니 타워형 서버로 중견/중소 기업을 위한 라인업으로, 랙마운트형 모델로는 PowerEdge R330과 PowerEdge R230이 발표됐다.


R330은 프로세서에 Xeon E3-1200 v5 시리즈를 채용하고 메모리는 최대 64GB, 핫 플러그 대응 드라이브로 3.5인치 HDD로 최대 4대, 2.5인치 HDD로 최대 8대를 탑재할 수 있으며 옵션으로 OS 탑재용으로 1.8인치 SSSD를 최대 2대 추가할 수 있다. 


- R330 대응 OS

Microsoft Windows Server 2012 R2
Microsoft Windows Server 2012

Red Hat Enterpise Linux

SUSE Linux Enterprise Server 12 SP1
SUSE Linux Enterprise Server 11 SP4
VMware® vSphere® ESXi®

 

R230은 프로세서에 Xeon E3-1200 v5 시리즈를 채용하고 R330과의 주된 차이는 드라이버 구성으로 R230은 3.5인치 HDD만(최대 4대)탑재할 수 있다. 


- R230 대응 OS

SP1
Microsoft® Windows Server® 2012
Microsoft Windows Server 2012 R2(x64)
Red Hat® Enterprise Linux®
VMware® Vsphere® 2015

 

타워형 모델로는 PowerEdge T330 / PowerEdge T130이 발표됐다. T330은 Xeon E3-1200 v5 시리즈 탑재, 메모리 최대 64GB, 핫 플러그 대응, 3.5인치 HDD를 최대 8대 탑재가 가능하며 외부 USB 포트를 8개 갖추고 있다.

반응형
Posted by 랩터 인터내셔널

 

 

 

포티게이트가 차세대 방화벽(NGFW)의 하이엔드급 신형 FortiGate-3200D 및 미들 레인지급 신형 FortiGate-600D의 시장 투입을 시작했다. 신형 3200D는 방화벽 스루풋이 최대 80Gbps, IPS 스루풋은 최대 14Gbps를 실현하고 있다.


신형 FortiGate-3200D는 데이터 센터 등의 엄격한 네트워크 환경에 대응하는 차세대 파이어월 어플라이언스로 48개의 10GbE 인터페이스를 탑재하며 최대 80Gbps의 방화벽 스루풋과 3마이크로초의 낮은 레이턴시, 동시 세션수 5000만을 실현한다. 그 외 가상 도메인 기능(VDOM)도 갖추고 있으며 멀티 테넌트형 데이터 센터 환경에도 대응한다.

 

FortiGate-600D는 대규모 지사/브랜치 오피스 등에 적합한 모델로 방화벽 스루풋이 최대 36Gbps, IPS 스루풋은 최대 7Gbps, 동시 세션수 550만을 실현하고 있다.

반응형
Posted by 랩터 인터내셔널

최소 0.45㎟로 작은 Cortex-A35 코어

ARM의 엔트리 수준의 64-bit CPU코어 "Cortex-A35"는 ARM의 CPU코어 전략의 변화를 상징한다. Cortex-A35의 마이크로 아키텍처와 다이면적을 다른 Cortex-A 패밀리와 비교하면 Cortex-A패밀리 전체의 변화가 보인다.

 

이번 Cortex-A35는 NEON유닛 없이 8KB L1의 최소 구성시 다이 영역이 0.4㎟다. ARM의 CPU코어는 보통 RTL로 소프트웨어 라이센스로 구성은 컨피규러블 되고 있다. 표준적인 구성은 L1이 32KB씩이며 NEON유닛도 갖추는데 최소 구성에서는 이들을 생략하고 그 밖에도 깎인 파라미터를 모두 최소화하고 있다. 그래서 표준 구성의 다이면적은 이보다 훨씬 커진다.

 

Cortex-A35의 앞 세대에 해당하는 Cortex-A7은 NEON유닛을 구현하는 32KB의 L1캐시 탑재의 보통 구성의 경우 28nm프로세스에서 0.45㎟의 다이사이즈라고 ARM은 밝혔다. 이 Cortex-A7을 최소 구성으로 NEON 유닛을 빼고 8KB의 L1으로 할 경우 코어 다이면적은 이 가운데 절반가량인 0.25~0.3㎟ 사이즈다. 같은 Cortex-A7에서도 보통 구성과 최소 구성에서는 다이 면적에 상당한 차이가 난다.

 

 

arm_s.png
Cortex-A7의 구성에 의한 다이면적 차이

 

 

최소 구성의 크기를 비교하면 Cortex-A35는 Cortex-A7보다 33~60% 크다. 최소 구성으로 삭감되는 L1과 NEON유닛의 사이즈가 크게 다르지 않다고 하면 표준 구성의 Cortex-A35는 0.55~0.6㎟ 정도의 다이면적으로 보인다. 실제로는 부동 소수점 연산 유닛은 강화되고 있어 표준 구성이 커질 가능성이 있다. 그러나 설계와 프로세스의 성숙에 의한 다이 축소도 있으므로 다이 면적이 반드시 더 커지는 것은 아니다.

 

    

Dave_s.png

 

 

Cortex-A35를 같은 ARMv8-A 아키텍처의 Cortex-A53와 비교하면 파이프 라인 아키텍쳐는 같은 인 오더 실행에서 최대 2명령 디코드며 그런데도 Cortex-A53의 다이가 크다. 이는 Cortex-A53은 풀 2명령 디코딩인 반면 Cortex-A35는 매우 한정적인 2명령 디코딩에 아키텍처의 복잡도가 다르기 때문이다.

 

Cortex-A53의 타깃 다이 영역은 ARM의 발표때 28nm 프로세스에서 0.5㎟다. 그러나 실제 제품에서 표준 구성의 경우 그것보다 큰 사이즈의 실장이었다. 그리고 이번 Cortex-A35는 Cortex-A53 보다 25% 작은 다이면적으로 발표된 바 있다.역산하면 Cortex-A53은 표준 구성에서 0.7㎟ 클래스의 다이면적이다.

 

 

 

Reality_s.png

 

더구나 같은 28nm에서 같은 구성의 CPU 코어인데도 프로세스의 옵션이나 표준 셀 라이브러리의 셀 하이트의 차이에 의한 다이면적은 크게 다르다. 같은 구성의 CPU 코어에서도 성능을 중시하는 구현은 저전력 실장보다 최대 40~50% 정도 커진다. 그래서 ARM의 설명에 있는 다이 사이즈는 기준에 불과하지만 상대적인 지표는 된다.

   

복잡화되는 모바일 SoC에서 ARM CPU 코어 구성

Cortex-A35의 목적은 현재 ARMv7-A 명령 세트 아키텍처의 Cortex-A7이 사용되고 있는 엔트리 수준의 스마트폰 시장을 ARMv8-A 명령 세트의 Cortex-A35로 바꾸는 것, 또 Cortex-A72와 Cortex-A53으로 구성된 big.LITTLE 구성에 Cortex-A72와 Cortex-A35의 선택 사항을 펼칠 것이다. 복잡한 ARM의 CPU코어 구성을 ARMv8-A 64-bit 아키텍처에서 통일할 수 있겠다는 것이다.

 

빅리틀(big.LITTLE)이 침투하기 전의 모바일 SoC에서 ARM의 ARMv7-A 명령 세트 CPU코어의 구성은 매우 간단한 것이었다. 하이엔드 SoC는 Cortex-A15 클래스의 대형 CPU의 쿼드 코어 구성이 주류고, 메인 스트림에서는 Cortex-A9 기반의 중형 CPU 코어로 쿼드 코어와 듀얼 코어가 주류, 엔트리급은 Cortex-A7급 소형 CPU코어로 쿼드 코어와 듀얼 코어를 사용했다. 물론 예외도 있지만 비교적 간단한 세계였다. 이는 코어가 클수록 성능이 높지만 전력 소비도 오른다는 트레이드 오프가 있었기 때문이다.

 

그런데 현재 모바일 SoC의 CPU 코어는 ARM 코어만 놓고도 매우 복잡해지고 있다. big.LITTLE에 의해서 코어 크기에 의한 저부하시 전력 소비가 줄어들게 됐기 때문이다.

 

 

Configuration_s.png
현재의 ARM CPU 코어 모바일 제품의 구성은 big.LITTLE에 의해서 복잡해지고 있다

 

현재로서 하이엔드 주류는 4개의 빅 코어와 4개의 리틀 코어를 조합한 대형 코어와 소형 코어의 대칭 구성이다. 그러나 미들 레인지 제품에서는 2개의 대형 코어와 4개의 소형 코어의 조합이 확산되고 있다. ARM은 당초 중형 코어와 소형 코어의 조합이 메인 스트림으로 온다고 설명하고 있었지만 그러한 구성은 마이너로 머물고 있다.

 

이유는 몇가지 있다. 우선 대형 코어 2개와 중형 코어 4개를 비교하면 싱글 스레드 성능이라면 대형 코어쪽이 높은 것. 또 대형 코어가 필요한 작업은 2코어 정도로 커버할 수 있는 경우가 많다. 그래서 중형 코어 4개를 올리는 것 보다 대형 코어 2개 구성 쪽이 유리하다고 보는 듯하다.

 

또 64-bit의 ARMv8-A로 이행이 진행되는 가운데 ARMv8-A의 중형 코어가 제공되지 않은 것도 이유다. 64-bit를 요구하는 SoC 판매업자는 중형 코어를 선택할 수 없다. 무엇보다 ARM측은 ARMv8-A 세대에서는 메인 스트림에서는 대형 코어 2개+소형 코어 4개의 비대칭 big.LITTLE이 주류가 되기 때문에 중형 코어의 64-bit화의 니즈는 아직 낮다고 설명했다. 닭과 달걀 같은 관계지만 ARM은 현재 코어 구성에서 중형 코어는 32-bit에 두고 있다.

 

또 배경적인 이유로는 ARM의 big.LITTLE 제어 소프트웨어 기술이 발전한 측면도 있다. 옛 모델에서는 big.LITTLE의 big측과 LITTLE측에서 같은 CPU코어 개수일 필요가 있었다. 하지만 지금은 비대칭 CPU코어 수에서도 소프트웨어가 제어할 수 있다. 이는 대칭형 CPU코어로 구성하지 않아도 제어할 수 있는 소프트웨어 모델 "Global Task Scheduling(GTS)"가 제공됐기 때문이다. GTS가 촉발된 SoC 판매업자의 big.LITTLE에 대한 대응이 급속히 진행됐다.

 

 

MP_s.png
big.LITTLE의 소프트웨어 모델의 변화

 

중형 CPU 코어가 흐려지는 현재의 ARM Cortex-A 패밀리

이런 상황에서 ARM의 Cortex-A 계열 CPU코어 전략은 미묘하게 변하고 있다. 종래의 ARM CPU코어는 소형 CPU코어와 대형 CPU코어의 2계열이었다. 대형 CPU코어는 소형 CPU코어에 비해 다이 지점에서 2~4배의 크기였다. 그러나 Cortex-A15의 등장으로 대형 CPU코어가 패밀리에 가세했다. 28nm 프로세스에서의 각 코어의 다이 지역의 상대적인 비교는 아래와 같다. NVIDIA의 Cortex-A15의 28HPL은 약간 큰 실장, Cortex-A7은 ARM 지표의 다이면적이다.

    

Corearea_s.png
간단한 ARMv7 시대의 Cortex-A 패밀리의 다이 지역

 

간단히 말하면 Cortex-A 패밀리는 소형 CPU코어에 비해 중형 CPU코어는 2.x배, 중형 CPU코어에 비해 대형 CPU코어도 2.x두배 크기이다. 중형 CPU코어는 마침 대형 CPU코어와 소형 CPU코어의 중간에 끼어 알기 쉬운 상대적인 다이면적이었다. CPU코어는 마이크로 아키텍처적으로 대형 CPU코어는 3명령 디코딩의 아웃 오브 오더 실행, 중형 CPU코어는 2명령 디코딩의 아웃 오브 오더 실행, 소형 CPU코어는 2명령 디코딩의 인 오더 실행이 된다.

 

그런데 여기에 와서 big.LITTLE과 ARMv8-A에 의해서 중형 CPU코어의 존재가 모바일 SoC에서는 흐려졌다. 그래서 ARM은 CPU코어의 포지션을 처음부터 다시해 종래는 엔트리 레벨 전용의 소형 CPU코어인 Cortex-A53을 메인 스트림용이라고 포지션을 고쳤다. 그리고 엔트리 수준으로는 더 작은 다이면적의 Cortex-A35를 투입했다.

 

그래서 현 Cortex-A 패밀리의 CPU코어의 위상과 다이면적 관계는 이전과는 꽤 변했다. 프리미엄 Cortex-A57/72가 다이면적으로 최대의 28nm라면 2.x 제곱mm클래스. 이것은 종래대로지만 메인 스트림에 위치하고 있는 Cortex-A53은 28nm에서는 1㎟를 크게 자른다. 그리고 엔트리에 규정된 Cortex-A35에 Cortex-A53은 다이면적이 25% 증가에 지나지 않는다. 원래 소형 CPU코어인 Cortex-A53이 메인 스트림에 위치하고 있다.

 

 

 

time_s.png
기존의 중형 CPU코어가 ARMv8-A기반의 CPU코어는 없다

 

 

언뜻 봐서 알 수 있듯이 프리미엄 CPU코어와 메인 스트림 CPU코어의 다이면적 차이가 크고 메인 스트림과 엔트리의 차이가 작다. 원래 엔트리 수준이던 Cortex-A53을 메인 스트림으로 규정했기 때문에 이것도 당연하다. 이처럼 비용 구조에 영향을 줄 코어 영역과 코어 시장 위치는 종전과 달라지고 있다.

     

멀티 코어화에 따른 CPU코어의 크기를 축소

더 큰 변화는 CPU코어의 다이 지역 축소다. 65nm프로세스에서 Cortex-A8은 1개의 CPU코어가 5㎟였다. 그것이 40nm의 Cortex-A9이 되면서 코어의 사이즈는 2㎟ 안팎에서 2.6㎟ 정도로 축소. 대형 CPU코어인 Cortex-A15는 28nm프로세스에서 2.x제곱mm정도로 40nm의 Cortex-A9과 동등하게 진정되고, 다이 지역은 보합세를 보였다. 그것이 현재의 14/16nm프로세스는 대형 CPU코어인 Cortex-A72 조차 다이면적은 1㎟대로 축소되었다.

 

간단히 말하면 ARM의 최고 성능 CPU코어는 65nm에서 40nm로 절반 크기로 되어 40nm에서 28nm는 같은 수준, 그리고 28nm에서 14/16nm에서 더욱 절반 크기가 됐다. 프로세스의 미세화에 따른 코어를 대형화하기보다 코어를 축소하는 방향으로 향하고 있다.

 

 

Coreikou_s.png
소형화가 진행되는 ARM의 CPU코어

 

ARM이 상대적으로 CPU코어 크기를 미세화와 함께 작게 하는 이유는 2가지다. 하나는 멀티 코어화, 다른 하나는 빅리틀(big.LITTLE)화다.

 

모바일 SoC의 성능 강화와 함께 CPU코어의 멀티 코어화가 진행되었다. Cortex-A9 세대가 되면서 듀얼 코어가 당연시되어 Cortex-A15가 되면서 쿼드 코어도 당연시됐다. 65nm의 Cortex-A8은 싱글 코어로 5㎟였지만 40nm의 Cortex-A9은 듀얼 코어에서 5~6.x제곱mm대의 사이즈이다. 여기에서는 미세화와 함께 CPU코어 수를 2배로 늘렸다.

 

Cortex-A15세대가 되면서 쿼드 코어가 일반화 되었다. 그 결과 28nm의 Cortex-A15 CPU코어 자체는 40nm의 Cortex-A9과 사이즈가 크게 변하지 않아도 CPU코어와 L2캐시 영역은 10㎟대 후반으로 급증했다. 28nm세대의 프리미엄 모바일 SoC는 다이중 CPU면적이 상대적으로 넓다.

 

20nm에서 14/16nm는 CPU코어를 축소하면서 쿼드 코어 CPU 영역의 면적이 줄고 있다. Cortex-A72의 ARM 지표의 구현은 16nm공정의 쿼드 코어에서 8㎟로 40nm시의 듀얼 코어 크기에 가깝다. ARM이 같은 차원의 면적에 더 많은 코어를 맞추려 CPU코어의 크기를 작게하고 있는 것을 알수 있다.

 

 

ARMikou_s.png
멀티 코어 구성의 클러스터 구역 비교

 

이에 박차를 가한 것은 big.LITTLE이다. big.LITTLE로 big의 대형 CPU코어 클러스터만 아니라 LITTLE의 소형 CPU코어의 클러스터도 탑재하게 됐다. 그만큼 CPU면적이 더해진다. ARMv8-A세대의 쿼드 코어 클러스터 사이즈로 비교하면 big의 Cortex-A57코어는 LITTLE의 Cortex-A53 코어의 2~3배. Cortex-A35는 LITTLE측의 CPU클러스터 사이즈를 조금이라도 줄인다는 효과가 있다.

    

ARM보다 아키텍처를 확장하는 아키텍처 라이센서

이렇게 보면 ARM은 일정 면적에 CPU코어 군의 다이면적을 억제하려하고 있으며 이를 위해 CPU코어의 면적을 작게 두고 있음을 추측할 수 있다. 그러나 그 때문에 ARM은 CPU코어 마이크로 아키텍처의 확장 속도를 늦추고 있다. Cortex-A15부터 Cortex-A72까지 ARM의 톱 CPU코어의 내부 아키텍처는 3명령 디코딩 베이스는 공통되고 있다. 다이면적으로도 소비 전력으로도 확장할 기회였던 14/16nm로 이행했지만 아직 확장하지 않고 있다.

   

Block_s.png
3명령 디코딩의 Cortex-A72아키텍처

 

이러한 ARM의 전략을 위해 ARM자체 IP의 CPU코어는 최근 싱글 스레드 성능을 내기보다는 멀티 쓰레드 성능을 올리는 방향으로 진행됐다. 싱글스레드 성능도 올리고 있는데 그것보다 코어 수를 늘리는 쪽에 중점이 있었다. 싱글 스레드 성능은 극적인 향상은 되고 있지 않다. 그래서 ARM의 아키텍처 라이센스를 받고 있는 칩 벤더는 ARMv8-A코어를 다른 방향으로 진화시키고 있다.

 

원래 ARM서버 계열에서는 아키텍처 라이센스를 받고 스레드당 성능을 올린 CPU코어가 개발됐지만 현재는 모바일에서도 그 경향이 강해지고 있다. 모바일로 독자적 CPU코어 개발 업체인 Apple이나 Qualcomm, NVIDIA는 모두 ARM 자체 IP코어보다 마이크로 아키텍처를 확장한 강력한 CPU코어를 개발하고 있다.

 

Apple은 iPhone 5의 A6 SoC에서 아키텍처 라이센스에 따른 독자 개발 CPU코어로 전환했다. Apple은 학회 등에서 CPU아키텍처의 발표를 일절 하지 않지만 LLVM의 리뷰에 이 회사의 CPU 마이크로 아키텍처의 데피니션이 기록되어 있다. 그것을 보면 명령 다중성을 높인 Apple코어의 윤곽을 알 수 있다. Apple의 코어는 1세대 전의 싸이클론(Cyclone, iPhone 6/iPhone 5s계열의 코어)에서 6마이크로 OPs(내부 명령)를 각 사이클에 처리할 능력이 있다. 정수 연산 파이프가 4개, 정수 곱셈 파이프가 1개, 나눗셈 파이프가 1개, 로드/스토어 파이프가 2개, 이 외에 분기 유닛이 2유닛과 간접 분기 유닛이 1. 정수 계열만 Cortex-A72의 2배 정도 넓은 파이프 구성이다.

 

Qualcomm이 Snapdragon 820에 탑재한 자사 개발 코어 Kryo는 아직 윤곽이 나타나지 않았지만 이쪽도 더 넓은 명령 디코딩&실행 대역을 갖는다고 알려졌다. NVIDIA의 Denver는 명령 디코더 자체는 2-way지만 일단 디코딩 한 명령에 최적화 스케줄링을 갖고 최대 7마이크로 OPs의 병렬 실행이 가능하다.

 

Apple, Qualcomm, NVIDIA등의 아키텍처 라이센스 CPU코어는 모두 ARM의 Cortex-A57/72코어보다 크기도 대형 코어가 된다. 즉, ARM이 CPU코어를 소형화하는 한편, 라이선스를 받은 업체는 ARM보다 사이즈가 큰 CPU코어를 만든다. 코어 크기의 계층적으로는 아키텍처 라이센스 코어, ARM의 대형 코어, 중형 코어, 소형 코어라는 4계층이 되고 있다.

 

다만 ARM이 CPU코어의 다이면적과 마이크로 아키텍처의 계층을 바꾼 것은 어쩌면, 향후 ARM이 CPU코어의 계층을 더욱 변화시키는 전조일지도 모른다.

 

14/16nm프로세스에서 Cortex-A72쿼드 코어 클러스터는 40nm의 듀얼 코어 클러스터 사이즈로 바짝 다가오고, 10nm세대에서 ARM은 CPU코어를 대형화 할 여유가 있다. ARM이 10nm프로세스를 겨냥하고 있는 차세대 CPU코어 Artemis(아르테미스)는 보다 복잡한 마이크로 아키텍처에 싱글 스레드 성능을 극적으로 높인 근원이 될지 모른다.

 

Semiconductors_s.png
아르테미스는 10nm를 겨냥한 차세대 코어

 

출처 - http://pc.watch.impress.co.jp/docs/column/kaigai/20151128_732643.html

반응형
Posted by 랩터 인터내셔널

 

 

 

중국 화웨이(Huawei)는 5일(현지시간), 하이엔드 스마트폰용 고성능 SoC 기린950을 발표했다.

 

이 회사 산하 하이실리콘(HiSilicon)이 개발한 하이엔드 모바일 SoC로 세계 최초의 TSMC 16nm FinFET+ 프로세스를 채용하고 30억 트랜지스터를 집적한다. 28HPM 프로세스와 비교하여 성능은 65% 향상되고 소비 전력을 70% 삭감, 20nm와 비교해도 성능은 40% 향상되고 소비 전력은 60% 줄였다고 한다.

 

또, 업계 최초로 Cortex-A72를 베이스로 한 프로세서 아키텍처를 상용화. 종래의 하이엔드용 Cortex-A57과 비교하여 성능이 11% 향상되고 소비 전력이 20% 절감 된 Cortex-A72를 4코어 탑재하며 Cortex-A53도 4코어 탑재한 빅리틀(big.LITTLE) 구성을 채용한다.

 

GPU는 ARM이 설계한 말리-T880을 채용, 그래픽 성능 및 연산 능력은 전세대와 비교해 2배가 됐고, 각종 센서의 데이터를 항상 수집해 메인 프로세서를 슬립 상태에서 순식간에 복귀시킬 수 있는 Cortex-M7 기반 i5 서브 프로세서를 내포하며 소비 전류를 6.5mA으로 차단해 대기 전류를 줄임으로써 종래부터 스마트폰 배터리 구동 시간을 10시간 연장하여 약 2일 구동이 가능하다.

 

메모리 컨트롤러는 LPDDR4, 새로운 인터럽트 컨트롤러 GIC-500, 새로운 프론트 사이드 버스/FBC를 갖춘다.


이미지 센서 프로세서(ISP)는 새롭게 자사가 개발한 14bit의 듀얼 ISP을 탑재해 9억 6000만 화소/sec의 처리 능력을 자랑한다. 센서는 1300만 화소×2 또는 3200만 화소×1에 대응하고 촬영 후 각종 DSP처리도 할 수 있고 얼굴 인식 기능도 갖추어 35명의 동시/추적 인식이 가능하다.


내장 모뎀은 싱글 칩으로 캐리어 어그리게이션에 대응, 종래의 듀얼 칩에서 저 전력화를 실현하고 대응 주파수는 450MHz~3.5GHz 및 VoLTE을 지원한다.

 

기린 950을 탑재한 Huawei의 플래그십 제품은 곧 등장.

반응형
Posted by 랩터 인터내셔널

거대화되는 인텔의 GPU코어

인텔은 스카이레이크에서 CPU코어를 확장했다. 스카이레이크의 다이(반도체 본체)을 같은 14nm공정의 브로드웰과 비교하면 CPU코어 자체의 사이즈는 스카이레이크에서 많이 커지고 있음을 잘 알수 있다. 그러나 스카이레이크 세대에서도 CPU의 다이 위에 큰 면적을 취하는 것은 GPU코어다.

      

왼쪽은 4+2(4 CPU코어+GT2 GPU코어)의 스카이레이크 다이. 오른쪽은 2+2(2 CPU코어+GT2 GPU코어)의 브로드웰 다이


인텔, AMD도 현재는 GPU 코어를 강화하는 길로 가고 있다. 스카이레이크 세대에선 72 EU(execution unit)/576개의 유닛을 갖춘 거대 GPU코어 GT4 버전도 등장한다. 스카이레이크 세대에서 드디어 인텔의 GPU 코어 피크 연산 성능은 1TFLOPS를 넘어선다. 아래는 각 세대의 인텔 그래픽의 최대 구성 코어의 연산 유닛 구성도다. 샌디브릿지 세대부터 5세대까지 인텔의 그래픽이 거대해진 것으로 나타난다.

    

인텔 그래픽의 각 세대 최대 구성 코어의 연산 유닛 수와 구성
인텔 그래픽 각 세대의 최대 구성 코어 연산 유닛 수와 구성


CPU 제조 업체가 GPU 코어를 확장하는 큰 이유는 전력의 제약 속에서 성능을 높여야 하기 때문이다. 원래 CPU 코어의 시리얼 실행 성능을 전력 효율적으로 끌어올리기는 어렵다. 그러나 단순히 CPU 코어 수를 많이 늘리면 칩에서 동시에 켤 수 없는 다크 실리콘 지역이 커진다. 이들 문제를 해결하려면 CPU의 오프 로드보다 성능과 전력 효율이 좋은 코어를 탑재하는 것이다. 그래서 CPU 제조 업체는 GPU 코어의 강화에 힘쓰고 있다.


다른 하나의 요인은 GPU 코어를 대형화 할 경우 병목이 되는 메모리 대역 문제가 해결되고 있는 것이다. 인텔은 메모리 대역을 소비하는 GPU 코어에 데이터를 이송하기 때문에 Haswell세대에서 eDRAM을 CPU 패키지에 넣어 대역을 올렸다. 스카이레이크는 이 솔루션을 확장한다. 또 인텔은 JEDEC(반도체 표준화 단체)에서 광대역 메모리 규격 HBM(High Bandwidth Memory)의 책정으로 활동하고 있어 장기적으로는 더욱 광대역의 메모리를 CPU에 접속할 수 있게 될 전망이다.



 


더 작아진 스카이레이크의 연산 유닛

GPU 유닛의 다이(반도체 본체)지역을 보면 브로드웰 GT2보다 스카이레이크 GT2가 13% 정도 크다. 같은 GT2의 GPU 코어에서도 스카이레이크가 비대하다. 그런데 GPU 코어의 속을 들여다보면 GPU의 프로세서 코어가 대형화 된 것은 아니다. 대형화 된 것은 미디어 엔진 등의 부분이 더 많은 프로그래머블 프로세서로서 GPU코어 부분은 대형화되지 않았다.


     

스카이레이크와 브로드웰의 GPU 유닛 다이 비교


인텔 GPU코어에서 연산 프로세서로 레지스터 부분인 EU(execution unit)는 특징적인 패턴으로 다이상에서 쉽게 알아볼 수 있다. GPU코어에서 8개의 같은 형태의 유닛이 나란히 되어 있는 부분이 EU의 블록이다. EU 블럭에 묶여 있는 것이 텍스처 샘플러 및 캐시 등의 블록인 것으로 보인다.


인텔은 물리적 설계상에서도 각 유닛을 제대로 설계하여 거의 같은 물리 설계 블록을 복수로 늘어 놓는 것으로 슬라이스의 구성을 늘릴 수 있도록 하고 있다. 스카이레이크 GPU 코어 중 EU를 포함한 왼쪽 부분이 슬라이스라고 추측된다. 

 

명료하게 식별할 수 있는 8개의 EU 블록을 비교하면 스카이레이크와 브로드웰의 크기가 다름을 알 수 있다. 스카이레이크의 EU는 브로드웰의 EU에서 84% 정도로 축소된다. 기능적으로는 동등한 유닛이 이처럼 축소되면서 스카이레이크는 아키텍처적으로 개량이 가해진 것이 시사되고 있다. 실제 인텔은 스카이레이크로 GPU 코어의 실행 모드에 근본적인 변경이 가해진 것을 설명하고 있다. 아키텍처를 실제에 확인하면 이 부근의 배경이 보인다.

브로드웰 세대와 크게 다르지 않는 GPU 코어의 구성

스카이레이크 GPU 코어의 3D 그래픽 엔진 부분의 매크로 레벨에서의 마이크로 아키텍처는 사실 브로드웰 세대와 크게 다르지 않다. 전체 구성에서 본다면 특히 스카이레이크 세대에서 진화하지 않았다고 오해 될 정도다. 그 만큼 브로드웰과 스카이레이크의 GPU 코어의 구성은 비슷하다. 그러나 후술 하는 것처럼 내용은 크게 다르다.

 

인텔은 GPU 코어를 블록화하고 있다. 우선 크게 나누면 GPU 코어 전체에서 공유하는 언 슬라이스(Un-Slice)와 미디어 엔진군, GPU코어에서 확장이 가능한 병렬화하는 "슬라이스(Slice)"로 구분된다. 슬라이스 부분을 늘림으로써 GPU 코어의 규모를 대형화하는 구조다.



 

GPU 코어를 블록화


인텔 그래픽 연산 코어 EU(execution unit)는 내부 합계 8개의 32-bit 단 정밀도 부동 소수점적 주산 유닛을 갖춘다. 브로드웰 세대까지는 32-bit 단 정밀도로 4-way 유닛이 2개의 구성으로 되어 있었다. 이 기본은 스카이레이크도 변하지 않는 모양이다. 인텔 GPU의 EU는 원래 4-way의 단 정밀도적 주산 유닛과 슈퍼 펑션 유닛의 구성으로 슈퍼 펑션 유닛이 4-way의 주산 유닛으로서 사용할 수 있게 된 바 있다.

    

스카이레이크로 기본이 되는 GT2 구성의 GPU코어


8개의 연산 유닛을 갖춘 EU는 또 8개씩 세트로 서브 슬라이스를 구성하고 있다. 슬라이스에는 8개의 EU 외에 텍스처 페치&필터링 유닛 Texture Sampler/Media Sampler와 L1/L2 캐시가 포함되어 있다. 말하자면 서브 슬라이스가 미니 프로세서적인 구조다. EU와 텍스처 유닛의 비율은 8대 1이 되므로 이는 스카이레이크의 GT2/GT3/GT4코어에서 공통이다. 즉, 연산과 텍스처의 비율은 GPU의 규모에 관계 없이 고정되어 있다.

 

     

서브 슬라이스의 구성


슬라이스 단위로 스케일 업 하는 모듈러 아키텍처

서브 슬라이스는 3개가 한세트로 슬라이스를 구성한다. 슬라이스에는 서브 슬라이스 외에 픽셀 백엔드와 L3캐시 등이 부속된다. 이들은 슬라이스 커먼으로 불린다. GPU의 하류 처리에 필요한 블록을 모두 정리한 것이 슬라이스다.

 

    

스카이레이크 세대의 슬라이스 커먼


스카이레이크에서는 슬라이스의 픽셀 아웃풋은 8pixel/clk를 이루고 있어 각 클럭마다 8개의 픽셀 서두가 있다. 슬라이스의 EU수는 정해졌기 때문에 연산에 대한 픽셀 출력의 비율도 고정되어 있다. 픽셀 백엔드 필 레이트는 브로드웰 세대와 비교해 1.33배~2배로 개선됐다고 인텔은 설명했다.

 

슬라이스는 GPU 처리중 연산, 텍스처, 픽셀 백엔드를 담당한다. 이들 처리는 슬라이스로 확장 가능하게 늘릴 수 있는 아키텍처다. 반면 GPU을 제어하는 명령 프로세서나 지오 메트리/래스터 라이즈의 고정 기능 유닛은 언 슬라이스로 슬라이스로부터 독립하고 있다. 이들 언 슬라이스 유닛은 GPU전체에서 공유한다.



 

스카이레이크 GPU의 언 슬라이스


NVIDIA나 AMD의 디스크 리트(외장) GPU는 인텔의 언 슬라이스로 해당되는 지오 메트리 파이프 등의 고정 기능 유닛도 다수 갖춘다. NVIDIA나 AMD의 지오 메트리 고정 기능 유닛은 인텔의 슬라이스인 GPU 유닛에 부속되어 있다. 지오 메트리 처리 확장성을 추구했기 때문이며 인텔 그래픽은 현재 이런 아키텍처는 취하지 않는, 즉 지오 메트리가 병목이 되지 않다고 보는듯 하다.

 

GPU 전체에서 공유하는 유닛에는 언 슬라이스 지오 메트리 유닛 이외에 미디어 프로세싱 유닛이 있다. 비디오 코덱 Multi-Format Codec(MFX), 비디오 품질 처리 Video Quality Engine(VQE), 스케일러 & 포맷 변환기 Scaler and Format Converter(SFC) 등이다. 또, 디스플레이 엔진이 시스템 에이전트 측에 구비되어 있다.

 

여기까지 보면 스카이레이크 GPU 코어의 기본 부분은 브로드웰 세대와 다름없어 보이는데 실제로는 소프트웨어 실행 모델에서 스카이레이크는 크게 달라졌다.

벡터 프로세서의 2가지 실행 모델

기존의 인텔 그래픽의 큰 특징은 2가지의 다른 실행 모델을 실행할 수 있음에 있었다. 그러나 스카이레이크의 GPU 코어는 스칼라형 1종류의 실행 모델로 집약된다. 실행 모델은 GPU 프로세서의 근간이며 스카이레이크 GPU 코어는 근본적인 실행 아키텍처가 변경된 것이다.

 

GPU는 벡터 프로세서지만 그 실행 모델은 크게 2종류가 있다. 하나는 Array of Structures(AOS) 또는 팩드(Packed)라 불리는 방식. 다른 하나는 Structure of Arrays(SOA) 또는 스칼라(Scalar)라 불리는 방식이다.


AOS/Packed 형은 데이터를 일정 수준의 포장된 형태로 처리한다. SOA/Scalar형은 마치 일련의 처리를 여러개 묶은 형태로 처리한다. 인텔 CPU가 내장한 기존의 짧은 벡터 유닛 SSE/AVX는 기본적으로는 AOS/Packed형 실행 모델이다. 반면 현재의 NVIDIA나 AMD의 GPU는 SOA/Scalar형 실행 모델로 특화 되어 있다.


 

16개의 연산 유닛을 AOS와 SOA 각 실행 모델로 작동시켰을 경우의 예


전통적인 GPU는 기존 SSE/AVX 같은 AOS/Packed형 모델이었으나 NVIDIA가 GeForce 8800(G80)에서 SOA/Scalar형 모델로 전환한 것을 시작으로 점차 SOA/Scalar형으로 바뀌어 갔다.


AMD는 GCN(Graphics Core Next)의 이행에서 SOA/Scalar형으로 바뀌고 Imagination Technologies는 PowerVR Series6(Rogue)에서 SOA/Scalar형으로 바뀌었다.


AOS/Packed형 모델과 SOA/Scalar형 모델에는 각각 장점과 단점이 있다. 대충 말하면 데이터가 3~4개 등 정해진 수의 팩에 포장되어 있는 경우는 AOS/Packed형이 효율이 좋다. 그러나 데이터 타입이 다양한 경우는 SOA/Scalar형이 유연하게 대응하기 쉽다. 그래서 여러 종류의 데이터를 취급하는 GPU 컴퓨팅에서는 SOA/Scalar형이 유리하다. 다만 16-bit와 8-bit 같은 보다 작은 데이터를 취급하는 경우는 AOS/Packed형에서 그룹 분할하는 편이 효율을 올리기 쉽다.

스카이레이크로 송두리째 바뀐 실행 모델

실행 모델 전환은 GPU 아키텍처 근간의 변경이다. 보통 AOS/Packed형 모델의 프로세서는 SOA/Scalar형 모델을 지원하지 않는다. 그 반대로 SOA/Scalar형 모델의 프로세서는 기본적으로는 AOS/Packed형 모델을 지원하지 않는다. 그래서 어느 실행 모델을 취할지는 백터 프로세서 아키텍처의 큰 차이점이다.

 

그런데 인텔은 달랐다. 인텔 그래픽은 그동안 AOS/Packed형과 SOA/Scalar형 모델 모두 지원해 왔다. 이는 GPU로서는 이례적인 아키텍처로 인텔 그래픽의 큰 특징이었다. 그리고 역시 AOS/Packed형과 SOA/Scalar형 두 모델을 지원하는 프로세서에 인텔의 라라비(Larrabee) 프로젝트가 있었다. 인텔은 AOS/Packed와 SOA/Scalar의 양쪽을 지원하는 것을 중시한 것으로 보인다.



 

라라비의 AOS와 SOA 설명 슬라이드


그러나 스카이레이크는 이 아키텍처가 근본부터 바뀌었다. 스카이레이크의 그래픽 실행 모델에 대해서는 IDF에서 다음과 같이 설명했다.


"기존 EU는 짧은 벡터 모드(AOS/Packed형)와 순수 스칼라(SOA/Scalar형)모드 양쪽을 지원하고 있었다. 2계통 모드에서 SIMD4 x2, SIMD1 x8, SIMD1 x16, SIMD1 x32 등 다양한 포맷이 있었다. 그래픽 스코어 처리중 지오 메트리 처리는 짧은 벡터 모드를 쓰고 있었다. 픽셀 프로세싱과 GPGPU는 순수 스칼라 모드를 사용했다. 몇몇 미디어 프로세싱도 스칼라 방식이었다. 그러나 스카이레이크는 모든 것에 대해서 항상 스칼라 모드를 사용하게 되었다. 그래서 컴파일러 스택도 스카이레이크에서 완전히 변했다"

 

SIMD4 x2는 4-way의 AOS/Packed형 실행 모델에서 4개의 요소를 팩화하고 동시에 처리하는 것으로 4-way 팩 2개를 한 덩어리로 실행한다. SSE와 비슷한 실행 모델로 바꾸어 말할 수 있다. SIMD1 x8과 SIMD1 x16은 SOA/Scalar형 실행 모델로 하나의 요소를 Scalar형으로 실행하며 이를 8개 또는 16개씩 묶는 것이다. 현재 PC용 GPU의 주류 모드다.

 

인텔 그래픽은 이처럼 AOS/Packed형과 SOA/Scalar형 2개의 실행 모델에서 각각 여러 실행 포맷을 갖고, 각각 필요한 처리 사이클도 달라 벡터 폭도 달라진다는 복잡한 구조였다. 스카이레이크에서는 이 실행 모델이 뿌리채 바뀌어 NVIDIA나 AMD의 GPU와 비슷한 SOA/Scalar형 뿐이다.

 

실행 모델을 바꾸는 중요한 요소는 무엇인가? 인텔은 간소화와 효율화를 달성한 것이라고 설명한다. 종래에는 인텔 그래픽 하드웨어도 두 실행 모델에 대응하는 내부 아키텍처를 취했다. 이는 GPU 하드웨어를 복잡하게 만들 뿐 아니라 드라이버도 복잡화시켰다고 본다. 스카이레이크의 SOA/Scalar형으로의 전환은 인텔 GPU 코어의 제어 및 소프트웨어층의 간소화를 가져온 것이다. 그러고 보면 스카이레이크에 EU 블럭이 축소된 이유도 보인다.

 

SOA/Scalar형 실행 모델은 통상적으로 GPU 컴퓨팅 같은 사용에 적합하다고 말한다. AOS/Packed형은 기존의 GPU와 미디어 프로세서를 이끌었던 모델이다. 이번 스카이레이크 GPU 코어의 개혁은 GPU 코어를 더 범용적인 GPU 컴퓨팅에 적합한 설계로 바꾸었다고도 할 수 있다.

 


출처 - http://pc.watch.impress.co.jp/docs/column/kaigai/20151022_726778.html

랩터 인터내셔널 - http://raptor-hw.net

 

반응형
Posted by 랩터 인터내셔널