01_s.jpg


미국 NVIDIA는 16일(현지시간) 인텔이 공개한 심층 학습(딥러닝)에 관한 제온파이와 NVIDIA GPU을 비교한 벤치마크 결과에 오류가 있다는 주장을 블로그에 공개했다.


인텔에 따르면 제온파이는 딥러닝에서



1. GPU보다 2.3배 빠른 훈련
2. 노드 전체에서 GPU보다 38% 뛰어난 스케일링 실현
3. GPU에는 불가능한 128노드에 대한 강력한 스케일링 실현


이라 하고 있다.


02_s.jpg
인텔의 자료


이에 대해 NVIDIA는 인텔이 사용한 벤치마크가 오래 된 것을 지적했다. 인텔이 사용한 것은 18개월 전에 공개된 Caffe AlexeNet 데이터이며 최근 도입된 Caffe AlexNet을 사용하면 4기의 Maxwell GPU 시스템 쪽이 4기의 Xeon Phi 시스템보다 30% 빠르며 4기의 파스칼 베이스의 TITAN X를 이용하면 90% 고속으로 훈련할 수 있다는 것.


스케일링에 대해서도 인텔이 인용한 것은 낡은 인터커넥트를 채용한 4년전의 데이터이며 NVIDIA는 더욱 새롭게 맥스웰 GPU와 인터커넥트를 채용한 시스템으로 Baidu가 GPU를 128기까지 거의 직선적으로 확장 발표한 것을 인용해 반증하고 있다.


NVIDIA는 인텔이 현재 딥러닝 연구를 진행하는 것이 멋지며 이는 가까워지고 있는 인공지능 시대에 가장 중요한 컴퓨팅 혁명으로 딥러닝은 무시할 수 없는 위대한 기술이지만 사실은 제대로 확인할 필요가 있다고 덧붙였다.


출처 - http://pc.watch.impress.co.jp/docs/news/1015680.html

반응형
Posted by 랩터 인터내셔널

Zen의 세부 사항은 다음주 회의에서 발표

AMD는 고성능 CPU 시장 점유율을 탈환하기 위한 수단으로 차세대 x86 CPU "젠(Zen)"을 투입한다. Zen은 현재의 불도저계 CPU 코어 "Excavator(엑스카베이터)" 보다 40%의 클럭당 정수 명령 실행 성능이 높아진다. 또 AMD의 CPU에서는 처음으로 SMT(Simultaneous Multithreading)를 지원하여 2쓰레드를 1코어로 실행 가능하다. 14nm FinFET 프로세스에서 제조되기 때문에 AMD의 28nm 현행 APU와 40nm의 현행 CPU보다 성능/전력이 비약적으로 향상된다.


AMD는 미국 샌프란시스코에서 프레스 컨퍼런스를 개최, Lisa Su(리사수, President and Chief Executive Officer, AMD)와 기술 부분을 이끄는 Mark Papermaster(마크 페이퍼마스터, Senior Vice President and Chief Technology Officer, AMD)이 등장하여 젠을 발표했다. 이 회사는 다음주 칩 컨퍼런스 "Hot Chips"에서 젠의 상세 내용을 발표할 예정이지만 그 개요를 조기 공개했다.


젠은 현행 불도저계 CPU와는 달리 완전히 처음부터 설계된 새로운 CPU 코어다. Bulldozer에서는 2CPU 코어가 1모듈이 되고 있지만 젠은 독립된 CPU 코어 구성을 이룬다. AMD는 Zen 코어를 우선 8코어 CPU 제품 "Summit Ridge(서밋 릿지)"로 제공한다. 또 32코어 "Naples"도 서버 시장에 투입한다. AMD의 하이엔드 데스크탑&서버 CPU는 오랫동안 신제품 부재의 상황이었지만 젠 기반 제품 패밀리로 단번에 만회한다.

정공법, 마이크로 아키텍처로 공격하는 Zen 프로세서

AMD는 젠 아키텍처를 높은 성능, 산출량, 효율을 염두하고 설계했다고 설명했다. 기존 Bulldozer형 아키텍처는 싱글 스레드 성능을 어느 정도 막고 전력과 다이 면적당 성능을 추구했다. 반면 Zen은 싱글 스레드 성능을 추구하면서 성능 효율을 높인 점이 다르다.



1_s.png
Zen의 설계 사상


CPU 아키텍처를 보면 그 설계 사상을 알 수 있다. Zen은 스트레이트 포워드 즉, 정공법으로 아키텍처를 조립하고 있다. 4명령/사이클의 명령 해독기에서 x86/x64 명령을 내부 명령 Micro-Op/uOP에 디코드, uOP를 정수와 부동 소수점 연산계로 크게 2개로 나누어진 스케줄러에서 처리한다. 처리 대역은 최대 6 uOPS/사이클이다.


정수 계열은 4연산 파이프와 2주소 생성 파이프, FP계는 SIMD(Single Instruction, Multiple Data)의 FP곱하기와 FP가산의 쌍이 2개 4파이프. 메모리 계층은 64KB의 L1 명령 캐시와 32KB의 L1 데이터 캐시, 512KB의 L2 캐시와 코어 사이에서 공유하는 8MB의 L3 캐시에 추가 명령 디코더의 하류에 uOP 캐시를 갖춘다. 아키텍처적으로는 Intel CPU와 설계가 비슷한 부분도 많다.


Bulldozer계의 CPU코어는 쓰레드당 정수 연산 파이프가 2개였다. 그것에 비해 젠은 정수 연산 파이프는 4개로 배가량 늘었다. AMD의 현재 CPU코어 "Excavator" 보다 클럭당 정수 계열의 명령 실행 성능 IPC(Instruction-per-Clock)는 40%나 높아진다. 참고로 K10 까지의 옛 AMD 아키텍처는 정수 연산 파이프가 3개다. 4개의 정수 연산 파이프는 AMD 아키텍처에서는 처음이다.


Micro-Op/uOP 캐시를 갖춘 Zen 프론트 엔드

Zen의 프론트 엔드는 L1명령 캐시는 64KB의 4-way에 L1으로부터 명령 페치는 32바이트 폭이다. 명령 해독기는 4-way로 최대 4개의 x86/x64 명령을 디코딩 할 수 있다. 종래대로 명령 퓨전을 장착하고 있다면 분기 명령 등을 융합시키는 것으로 최대 5명령 부분을 디코딩 하는 것이 된다. x86/x64 명령을 디코딩 하여 생성된 내부 명령 Micro-Op/uOP는 큐에서 큐잉되고 프론트 엔드에서는 분기 예측도 강화됐다.


Zen의 프론트 엔드에서 기존 AMD 아키텍처에 없던 것은 "uOPs Cache"로 디코딩 한 uOPs를 캐시한다. 가변 길이로 다양한 명령 형식이기 때문에 명령 디코딩이 복잡하게 되는 x86/x64명령의 디코딩을 생략하고, 디코딩을 마친 uOPs를 캐시 함으로써 효율적인 명령 피드를 실현한다. 전력 소비가 많은 명령 디코딩을 건너 뛰기 때문에 전력 절약 측면에서의 효과도 크다. AMD는 큰 uOP 캐시라고 설명하고 있기 때문에 수십 명령 정도의 루프 캐시가 아니라는 것을 알 수 있다.


인텔도 같은 구조를 가지고 있으며 uOPs 캐시의 태그가 L1 명령 캐시의 태그와 연결되고 있다. L1 명령 캐시를 매핑하는 히트 로직을 채용하는 것으로, 트레이스 빌드 등을 하지 않는 심플한(단, 소모도 많다)제어를 하고 있다. 현재의 스카이레이크의 경우 uOP 캐시 메모리에는 64바이트 분량의 L1 명령 캐시 페치 윈도우를 매핑하고 있다.



2_s.png
Zen 아키텍처



Micro-Op/uOP 큐에서는 1사이클에 6개의 uOPs를 스케줄러에서 처리할 수 있다. 만약 명령 해독기가 4 uOPs/사이클 밖에 디코딩을 못하면 복호화 대역으로 벗어나게 된다. 더구나 uOP캐시에서 페치가 최대 6 uOPs의 가능성도 있다. 인텔의 스카이레이크도 Micro-Op/uOP 캐시로 히트한 경우 최대 6 uOPs를 페치 할 수 있다. 기존의 Bulldozer계 CPU 코어는 스케줄에 대해 4 uOPs 처리기 때문에 AMD는 Zen이 1.5배의 명령 대역이라고 설명했다.


그리고 x86/x64 CISC(Complex Instruction Set Computer)명령을 실행하는 AMD CPU는 기존에는 마이크로 오퍼레이션을 복합시킨 Macro-OP를 스케줄 단계에서 운영 단위의 Micro-OP로 변환하는 스타일을 취했다. 내부적으로도 CISC 형태였다. Zen의 경우는 아직 어떤 uOPs로 구성되어 있는지는 모른다.




3_s.png
Zen 코어 마이크로 아키텍처


4개의 정수 연산 파이프의 Zen 정수 코어

Zen의 정수 코어 구성은 4개의 정수 연산 파이프에 2개의 로드/스토어 파이프의 구성, 기존 Bulldozer계 코어는 2개의 정수 연산 파이프와 2개의 로드/스토어 파이프다. 그래서 AMD는 Zen에는 실행 자원이 1.5배가 되었다고 주장하고 있다. 파이프를 늘렸을 뿐만 아니라 AMD는 명령의 스케줄링 윈도우도 1.75배로 했다. 다만 이는 1코어당 비교일 가능성이 있다. AMD는 Zen에서 보다 큰 1코어에서 2쓰레드를 실행하는 구조여서 쉽게 비교할 수 없다. 더 자세히 보면 Zen 코어는 스택 오퍼레이션을 위한 하드웨어 엔진을 갖는 Move 명령의 엘리미네이션도 한다.



4_s.png



FP 연산 파이프에 대해서는 아직 모른다. AMD는 Zen에서 부동 소수점 연산 성능도 크게 향상된다고 설명했다. AMD 슬라이드 상에서의 구성은 곱셈 유닛이 2개에 가산 유닛이 2개. 곱셈 유닛과 가산 유닛을 조합함으로써 주산 명령을 실행할 것으로 보인다. SIMD(Single Instruction, Multiple Data)유닛이지만 SIMD폭은 아직 모르지만 256-bit 4유닛으로 예상된다.



5_s.png



로드/스토어는 주소 생성 유닛이 2유닛. 다만 2로드와 1스토어를 병렬 실행할 수 있다고 생각되고 있다. L1 데이터 캐시는 32KB로 8-way. 데이터 캐시 메모리에는 프리페처가 있는데 Zen 에서는 이것이 대폭 강화됐다. 더 복잡한 데이터 패턴을 선반입할 것으로 예상된다.


스레드 병렬을 SMT(Simultaneous Multithreading)로 전환한 Zen

캐시 계층은 L0에 해당하는 uOP 캐시라 웬만한 용량의 L1, 상대적으로 작은 L2, 대용량으로 코어 간에서 공유 L3의 4단계 구성이다. L2를 줄이면서 L2 접속 레이턴시는 크게 단축됐다고 보인다. 캐시 계층은 Intel CPU 캐시 계층과 거의 비슷하다. 캐시 대역은 L1 명령 캐시에서 페치가 32-byte(256-bit)/사이클. L1 데이터 캐시에서 2개 16-byte(128-bit) 로드와 1개 16-byte(128-bit) 스토어를 병렬 실행 가능하다. L2의 대역은 L1 명령 캐시와 L1 데이터 캐시가 각각 32-byte(256-bit)/사이클.L3와 L2 사이도 32-byte(256-bit)/사이클이다.



6_s.png



스레드 병렬성에서 Zen은 SMT(Simultaneous Multithreading)를 구현하여 2쓰레드를 혼재 실행할 수 있다. Bulldozer형 아키텍처에서 스레드마다 독립된 정수 코어를 갖춤으로써 2쓰레드를 병렬 실행했다. Bulldozer계에서는 FP 유닛과 L2 캐시를 2스레드에서 공유하고, 메인 정수 유닛은 스레드마다 독립시킨 구성이었다. 반면 Zen에서는 큰 싱글 코어에서 2쓰레드를 병렬 실행한다. 인텔의 Hyper-Threading과 기본적인 부분은 같다.


2개의 스레드는 각각 독립된 프로그램 카운터를 갖고 아키텍처 레지스터 파일도 개별된다. 실제로 아키텍처 레지스터는 물리 레지스터 파일에 리네이밍 장치에서 매핑한다. 각각의 스레드 명령은 아웃 오브 오더 실행 엔진에서 병렬 실행된다.



7_s.png


데스크탑용은 8코어 Summit Ridge

Zen의 제조 공정 기술은 14nm 노드. 글로벌 파운드리의 14LPP 로 보인다. AMD의 CPU나 APU(Accelerated Processing Unit)에서는 첫 FinFET 3D 트랜지스터 프로세스가 된다. AMD는 APU가 28nm, CPU가 40nm 프로세스였으므로 14nm의 FinFET 프로세스로의 이행은 큰 점프다. 누설 전류(Leakage)가 떨어질 뿐 아니라 일정한 동작 주파수때 액티브 전류도 떨어지기 때문에 큰 폭으로 전력 절약이 된다.



8_s.png



AMD는 동작 주파수당 전력 소비는 현재의 CPU 코어 Excavator과 동등하며 IPC(Instruction-per-Clock)가 40% 나 오른다고 강조한다. 또 AMD는 앞으로 Zen 코어를 발전시키며 더 실행 효율을 높인 "Zen+"가 예정되어 있다.



9_s.png
10_s.png



먼저 제품화되는 것은 하이엔드 데스크탑용 "Summit Ridge(서밋 릿지)". 8코어에 16스레드의 CPU 제품이다. 소켓 플랫폼은 "AM4", 메모리는 DDR4, I/O는 PCI Express gen3, 아직은 공개되지 않은 칩간 인터커넥트를 갖춘다. 게이밍과 VR(Virtual Reality), 워크 스테이션 등의 시장을 노린다.



11_s.png
12_s.png
13_s.png
14_s.png



또 AMD는 32코어 서버 SoC(System on a Chip) "Naples"도 공개했다. SMT로 64스레드의 몬스터 CPU다. 구성을 감안하면 4개의 Summit Ridge 다이를 연결할 가능성도 있다. AMD가 공개한 것은 Naples의 2소켓 서버였다.



15_s.png
16_s.png
32코어 Naples


또 AMD는 앞으로 Zen 베이스의 APU(Accelerated Processing Unit)도 투입한다. 메인 스트림의 데스크톱과 노트북 PC 또 임베디드까지 Zen을 가져온다. AMD에게 지금까지는 획기적인 CPU나 APU가 없는 어려운 시기였지만 Zen의 투입으로 상황을 바꾸려 하고 있다.


출처 - http://pc.watch.impress.co.jp/docs/column/kaigai/1015633.html

반응형
Posted by 랩터 인터내셔널

차세대 제온파이 "Knights Mill"은 2017년 투입 예정

다이앤 브라이언트는 강연의 후반에서 AI(인공지능)으로 화제를 돌려 인텔이 6월 발표한 Xeon Phi(개발 코드 네임:Knights Landing)이 딥러닝용으로, 그리고 Xeon 프로세서가 머신 러닝용으로 적합하다고 강조했다.

 

여러개를 병렬로 접속해서 스케일 아웃 할 수 있는 Xeon Phi는 128개를 나란히 처리시킴으로써 1개의 경우보다 최대 52.2배의 속도로 AlexNet을 이용한 학습을 고속화할 수 있는 장점이 있다고 어필했다. 또 지난주 인텔이 인수한다고 발표한 너바나 시스템즈에 대해서 소개하면서 Nervana Systems가 개발한 딥러닝용 소프트웨어를 활용함으로써 딥러닝의 학습 등이 IA 시스템상에서 더 잘 이루어진다고 밝혔다.



10_s.png
11_s.png
12_s.png


고객의 사례로 중국의 검색 벤더 바이두가 소개되면서 이 회사의 딥러닝을 활용한 음성 인식 소프트웨어 "DeepSpeech"등이 소개됐으며 바이두의 딥러닝 사례는 NVIDIA가 2015년 봄에 개최한 GTC15에도 소개되고 있다.


그는 앞으로도 IA 환경에서 딥러닝, 머신러닝의 솔루션을 확장시키도록 하겠다며 Caffe, theano등의 대응 라이브러리를 늘리고 인텔의 개발 툴로 대응을 늘리며 대학과의 공동 연구 등을 가속하겠다고 설명했다.


그리고 마지막으로 2017년 투입할 예정인 차세대 Xeon Phi를 언급하면서 "차세대 제품은 나이츠 밀(Knights Mill)이 된다. Knights Mill은 보다 딥러닝의 성능에 초점을 맞춘 제품으로 특히 딥러닝용으로 중요한 확장이 진행될 예정이다" 라며 차세대 Xeon Phi가 되는 Knights Mill에서는 특별한 딥러닝용 기능 확장을 진행하고 더 깊은 학습에 적합한 프로세서로 개발할 것이라고 설명했다.


출처 - http://pc.watch.impress.co.jp/docs/news/event/1015453.html

반응형
Posted by 랩터 인터내셔널
01_s.png

인텔의 데이터 센터 사업부장 다이앤 브라이언트


인텔은 8월 16일~18일(현지시간) 3일간 Intel Developer Forum을 개최하고 있다. 2일째인 8월 17일에는 데이터 센터와 5G에 관한 기조 강연이 진행됐다.


현지 시간 오전 9시 45분부터 열린 인텔의 데이터 센터 사업부장 다이앤 브라이언트의 강연에서 동사의 데이터 센터에 관한 전략과 신제품이 공개됐다. 이 가운데 그는 인텔이 그간 업계들과 개발을 계속하고 보다 효율적인 서버 랙이 되는 랙 스케일 아키텍처의 v1을 올해(2016년)말까지, 또 서버 간 - 데이터 센터 간을 접속하는 인터 커넥트로 이용할 수 있는 실리콘 포토닉스(빛을 매개로 데이터를 보낼 수 있는 반도체 레이저와 그 회로)를 6월부터 OEM 업체에 출하하여 100Gb/s 라는 기존 방식보다 더 광대역을 실현하는 것이 특징이다.


또 그는 회사가 6월 발표한 Xeon Phi(개발 코드 네임:Knights Landing)의 후계로 2017년 나이츠 밀(Knights Mill)로 불리는 차세대 제품 투입 계획을 밝혔다.


100Gb/s로 통신할 수 있는 HPC/서버용 인터커넥트 "실리콘 포토닉스"

기조 강연에서 우선 가장 역점을 두고 있는 사업으로서 클라우드 서버의 분야에 대해서 거론했다. 그는 "클라우드는 IT에서 가장 중요한 인프라가 되어가고 있다. 사용자가 클라이언트 장치를 사용하려면 그에 맞는 클라우드 인프라를 제공해야 한다. 퍼블릭 클라우드만 아니라 프라이빗 클라우드도 증가하고 있어 IT 전체로 10% ~ 20% 정도로 증가했고, 연평균 20% 증가하고 있다. 그런 프라이빗 클라우드, 퍼블릭 클라우드, 그리고 2개를 커버하는 하이브리드 클라우드 등이 향후로도 성장하듯 클라우드의 요구에 대응하려면 데이터 센터의 효율을 높여 나갈 필요가 있다"며 클라우드 서버 효율화의 필요성을 설명했다.


그 방법의 하나로 인텔이 몇 년전부터 업계와 연계하고 있는 서버 랙 자체의 구조를 재검토함으로써 보다 서버의 이용 효율 등을 끌어올릴 수 있는 "랙 스케일 아키텍처"에 대해 첫번째 버전(v1)이 올해 말까지 Dell, Ericsson, Quanta, inspur 등에서 출하 될 예정임을 밝혔다. 이어 그는 "2017년에는 v2.0이 나설 예정으로 SSD 나 FPGA 등에 대응한다" 며 지속적으로 랙 스케일 아키텍처를 개선해 나갈 것이라고 설명했다.


또, 그러한 서버 간, 심지어 데이터 센터 간을 접속하는 인터커넥트의 중요성이 높아지고 있다며 1개의 솔루션으로 인텔이 개발한 실리콘 포토닉스를 6월에 OEM 업체에 출하를 시작했다고 밝혔다.


실리콘 포토닉스는 빛을 매개로 데이터의 송수신을 하는 방식으로 광 케이블에 통합 회로와 반도체 레이저를 조합하고 데이터의 송수신을 한다. 그에 따르면 현행 제품에서 랙 안의 접속으로 100Gb/s, 가까운 장래에는 랙과 랙간 접속에 400Gb/s, 차세대 제품에서는 서버 간의 접속으로 100배의 대역 밀도를 실현한 제품이 가능하게 된다고 설명했다.


실리콘 포토닉스의 제품으로 2개의 SKU를 발표하고 있다. 하나가 "100G PSM4 QSFP28 Optical Transceiver"로 최대 2km에서 100Gb/s의 통신이 가능하게 되어 있다. 다른 하나는 "100G CWDM4 QSFP28 Optical Transceiver"로 이쪽은 최대 500m, 2km 내지 10km로 100Gb/s의 통신이 가능하게 된다. 현재 서버 등에서 일반적으로 사용되는 10G 이더넷 등에 비해 통신 대역 폭이 10배가 되고 거리도 크게 증가하는 것이 특징이다.


브라이언트는 "인텔의 실리콘 포토닉스의 강점은 타사가 실현하지 못한 실리콘 레이저를 유일하게 실현할 수 있는 것이다" 라며 타사가 금방 따라잡을 수 없다고 어필했다.


출처 - http://pc.watch.impress.co.jp/docs/news/event/1015453.html

반응형
Posted by 랩터 인터내셔널

인텔이 IDF 기술 세션에서 제휴 발표

인텔은 ARM과 파트너십을 전격 발표했다. ARM의 IP를 인텔의 10nm공정으로 커스텀 파운드리로 이용할 수 있게 된다.


1_s.png
2_s.png
3_s.png
인텔은 ARM을 파운드리 비지니스의 파트너로 발표


인텔은 미국 샌프란시스코에서 열린 기술 컨퍼런스 "Intel Developer Forum(IDF)16 San Francisco"에서 ARM과 제휴를 발표했다. 인텔은 파운드리 사업의 IP 파트너로서 ARM과 제휴하여 ARM의 피지컬 IP플랫폼인 "ARM Artisan"을 포함한다. Artisan에는 ARM 프로세서 등 셀 라이브러리나 메모리 컴파일러 등이 포함된다. 또 ARM 코어의 물리 설계를 인텔 프로세스로 최적화하는 "POP(Process Optimization Pack)"도 제공된다.


이 제휴는 파운드리 생태계의 파트너다. 인텔이 ARM 코어의 라이센스를 받아 ARM 코어를 개발한다는 소리가 아니다. AMD와 NVIDIA가 ARM으로부터 라이센스를 받고 ARM 코어 칩을 만들고 있는 관계와는 다르다.


인텔의 목적은 파운드리 고객을 더 많이 늘리고 인텔 팹에서 제조하는 타사 칩의 양을 늘리기 위함이다. PC 시장의 수요가 포화되었기 때문에 인텔은 자사 팹의  생산 라인을 가득 메우기 위한 파운드리 고객을 필요로 한다.



ARM의 피지컬 IP가 실려 개발이 쉽게

파운드리 비니지스에서 ARM과 제휴로 인텔은 파운드리로서 TSMC나 삼성/글로벌 파운드리의 시장에 침투한다. 즉, ARM 기반의 모바일 SoC를 만드는 칩 벤더는 앞으로 TSMC나 삼성,글로벌 파운드리와 동렬에 추가로 인텔을 검토할 수 있게 된다. 혹은 알테라 FPGA로 최신 ARM의 하드 코어를 통합한 칩이 제공될 수 있다.


이번 ARM과 인텔의 파트너십에서 중요한 점은 ARM의 POP를 포함한 Artisan IP가 제공되는 것이다. RTL에 라이센스를 취득한 칩 벤더는 제조하는 프로세스 기술에 대한 최적화를 자력으로 해야 한다. 여기에는 상당한 개발 노력이 필요하며 최적의 PPA(전력, 성능, 면적)의 코어를 설계하려면 어느 정도의 노하우도 필요하다.


반면 ARM의 Artisan이 실리면 사용하는 코어의 POP가 제공되고 있는 경우에는 칩 벤더의 개발 인력은 대폭 경감된다. 프로세스에 최적화 된 라이브러리, 설계, 노하우를 이용함으로써 단시간에 높은 PPA(전력, 성능, 면적)의 코어를 비교적 쉽게 설계할 수 있다. 다시 말하면 소비 전력 및 비용이 낮고 퍼포먼스가 높은 칩을 쉽게 설계할 수 있다.

ARM은 고성능 Cortex-A 패밀리 코어에 대해 POP를 제공하고 있다. 즉, 인텔 팹에서 Cortex-A의 고성능 코어를 올린 SoC를 설계하기 쉽게 된다는 것을 나타내고 있다. Cortex-M과 Cortex-R은 POP가 제공되지 않았다. 또 POP가 제공된다는 것은 인텔이 ARM 코어의 자사 프로세스 이식에 탄탄하게 하고 있음을 나타내고 있다.

POP가 제공되므로 ARM 코어를 인텔 프로세스용으로 설계한 하드 매크로도 제공될 것으로 보인다. 물리 설계의 하드 매크로로 IP가 제공되는 경우는 더 쉽고, 그대로 매크로를 자사의 SoC에 짜넣을 수 있다. 하드 매크로도 제공된다면 ARM 코어를 사용하고 싶은데 설계 인력은 최소로 하고 싶어하는 고객들도 끌어들일 수 있다.


IDM 모델에서 일반 파운드리 모델로 전환 시킨다

현재 파운드리들에게 첨단 프로세스를 견인하는 제품 분야는 모바일과 네트워크다. 그리고 그 분야에서는 ARM이 압도적인 우위를 가지고 있다. 그리고 ARM 기반의 칩을 제조하는 파운드리는 모두 Artisan의 접속이 가능하고 주요 프로세스에서 ARM의 주요 Cortex-A 코어 POP도 제공한다.


간단히 말하면 첨단 프로세스의 파운드리 고객에게는 ARM의 IP 플랫폼이 갖추어지는 것이 전제가 된다. 그것이 그간 인텔 파운드리에 부족했다. 그래서 지금까지는 ARM 기반의 칩을 인텔의 최첨단 프로세스로 제조하고 싶어하는 고객이 있어도 쉽게 사용할 수 없었다. 이번 제휴에 의해 그것이 해소됨으로써 인텔의 파운드리 사업은 진정한 체제가 갖추어지기 시작했다.


이는 인텔의 파운드리 사업의 진정성도 제시했다. 인텔은 자체 설계한 칩을 자사에서 만드는 "IDM(Integrated Device Manufacturer)"이었다. 파운드리 비지니스를 전개하면서도 IDM을 끌었던 모델의 색채가 짙었다. 즉, 자사 IP의 강도를 살린 파운드리 비지니스를 전개하려는 시도처럼 보였다.



그것을 단적으로 나타내는 것은 CPU 코어다. 인텔은 자사의 Atom계 CPU 코어를 파운드리 고객에게 IP로서 제공하겠다고 했었지만 다른 파운드리와 비교 되게 ARM의 Artisan 제공은 다루지 않았다. 즉, 자체 설계된 코어 IP 자산을 활용한 비즈니스로 몰아가고 있었다.


이번 인텔과 ARM의 제휴에 의해 인텔은 보통 파운드리처럼 ARM의 Artisan IP와 POP을 갖추게 됐다. 자사 IP를 고객에게 쓰는 것에 구애 받지 않고 업계 표준적인 IP를 제공하는 모델이다.


순수하게 프로세스나 패키지의 기술로 싸울 수 있게

ARM IP가 즐비함으로써 인텔은 다른 파운드리와 순수하게 프로세스 기술과 제조 서비스에서 싸울 수 있게 된다. 여기에는 이점과 불리한 점이 있다. 이점은 인텔의 뛰어난 프로세스 기술, 특히 성능/전력 면에서 뛰어난 점을 홍보하기 쉽다. 같은 ARM 코어를 올린 SoC가 타사의 10nm 공정보다 인텔의 10nm 공정이 전력이 낮고 성능이 높으면 강력하게 어필된다.


또 인텔은 독자적인 2.5D 패키지 솔루션 "Embedded Multi-die Interconnect Bridge(EMIB)"도 보유하고 있다. 이 기술은 실리콘 인터포저를 사용하지 않고, 저비용으로 FPGA를 연결하거나 HBM(High Bandwidth Memory) 등의 고밀도 배선을 가능하게 한다. 이러한 독자적 패키지 기술도 강점이 된다. 또 인텔이 자랑하는 고속 SerDes 등의 하드 매크로도 매력적이다.




7_s.png
8_s.png
9_s.png
2.5D의 지렛대가 될 가능성이 있는 EMIB
10_s.png
고속 SerDes도 인텔의 고객에게 제공


그런 이점의 반면 인텔은 제조 서비스의 가격 모델을 다른 파운드리에 어느 정도 맞추어야 한다. IDM으로 초 고부가 가치의 x86 CPU를 소품종 대량 생산하는 인텔은 웨이퍼의 코스트가 높아도 지금까지는 큰 문제가 되지 않았다. 인텔의 프로세스 웨이퍼 비용은 매우 높다고 업계 분석가 사이에서 추정되고 있다. 그러나 파운드리와 경쟁하기 위해서는 비용을 낮추고 가격을 낮게 억제할 필요가 있다. IP 면에서 차별화를 하지 않는다면 가격 면에서 경쟁력을 매길수 밖에 없어진다.


애플이 아이폰 칩을 인텔 팹에서 제조할 가능성

다양한 도전이 있지만 ARM과 제휴는 인텔에게 새로운 고객의 길이 열린다. 이번 인텔의 발표에서는 새로운 파운드리 고객에 LG전자가 포함되고 있다. LG가 ARM 기반의 모바일 SoC 제조에 인텔 팹을 택했을 가능성이 높다. 모바일 SoC에서 뒤쳐진 LG가 역전의 수단으로 인텔의 프로세스 기술을 채택한 스토리가 상정된다.


11_s.png
인텔은 새로운 파운드리 고객 중 하나로 LG를 소개


그럼 하이엔드 모바일의 초 거물 애플과 퀄컴은 어떨까. 인텔은 몇 년전 파운드리 비지니스를 시작한 전후에 애플의 모바일 SoC를 인텔 팹에서 제조하는 협상을 벌이고 있다는 소문이 있었다.


그러나 애플의 A 시리즈와 퀄컴의 하이엔드 칩은 ARM에서 아키텍처 라이센스를 획득한 커스텀 마이크로 아키텍처 코어를 사용하고 있다. 그렇게 되면 ARM의 Cortex-A 코어 POP 등은 의미를 갖지 않는다. 단, 인텔이 타사 IP의 대응에 열심인 전략으로 돌아선 것은 중요하고 다양한 IP가 즐비함으로써 사용하기 쉬운 파운드리가 된다. 예컨대 애플이 A 시리즈에서 사용하는 PowerVR GPU 코어의 Imagination Technologies도 소프트 매크로지만 인텔의 파트너가 되고 있다.




12_s.png


또 인텔도 EDA 툴 벤더와 관계를 맺기에 열성이다. 과거에는 인텔과 EDA 툴 벤더의 사이는 소원했지만 파운드리 비지니스에서는 EDA 벤더 등 생태계의 파트너를 강조하고 있다.


13_s.png
주요 EDA 툴 벤더와 10nm 공정에서 제휴


그럼 인텔이 자체 브랜드의 ARM 베이스 칩을 개발할 가능성은 어떨까. POP를 개발한다는 것은 인텔이 자사에서 언제라도 ARM 코어를 만들 준비를 갖추게 된 것과 다름없다. 그러나 인텔이 자사 제품을 만든다면 파운드리 고객과 경쟁할 것이다. 이전에 삼성이 자사에서 ARM 코어 서버 칩을 개발했을때 칩의 발매를 취소한 것은 고객과 경쟁 문제 때문이었다고 한다. 인텔도 같은 문제를 떠안게 된다.


프로세스 기술에는 "+" 제너레이션을 투입

인텔은 이번 프로세스 기술과 파운드리 비지니스 대해서 ARM과 제휴 외에도 많은 발표를 하고 있다. 예컨대 14nm 이후의 프로세스는 성능의 인핸스 과정 변화를 단계적으로 제공하는 것도 밝혔다.


14_s.png
인텔의 새로운 프로세스 기술 전략


10nm에서는 10에 이어 "10+", "10++" 로 3개의 파생 프로세스를 제공한다. 14nm에도 14+가 등장하고 이는 차세대 CPU "Kaby Lake(카비레이크)"에서 사용되고 있다고 한다. 인텔의 프로세스는 그 동안 소수점 아래의 버전 업이 있고 같은 프로세스 세대도 몇번의 개량이 가해지고 있었다. 앞으로는 그것이 보다 명확하게 어쩌면 더 깊은 부분에서 혁신하게 된다고 보인다. 참고로 TSMC나 삼성 역시 같은 프로세스 노드에서 복수의 파생 프로세스를 거친다.



15_s.png


출처 - http://pc.watch.impress.co.jp/docs/column/kaigai/1015353.html

반응형
Posted by 랩터 인터내셔널

HP가 독특한 디자인의 게이밍 데스크톱 오멘 X (OMEN X)를 발표했다.


제품의 디자인은 큐브형태로 45도 기울어져 있으며 블랙을 기조로 빨간 라인의 임팩트로 독특한 디자인을 선보이고 있다.


케이스 내부는 메인보드와 CPU, GPU의 한 그룹, HDD/SSD 그룹, 파워 서플라이 그룹으로 총 3부분으로 분리되어 있으며 각각 독립적으로 냉각하는 구조. 제품 사양은 구매자 선택이 가능하며 일반 모델의 사양은 스카이레이크 Core i7-6700K, 16GB 램, 256GB M.2 SSD, 2TB HDD, 파스칼 GTX 1080, 윈도우10을 탑재하며 GPU는 지포스 외 라데온 R9 Fury X도 선택할 수 있다.


인터페이스 부분은 10개의 USB 3.0포트(타입C도 위치), 3개의 디스플레이포트, HDMI, DVI, 블루투스 4.2 등을 탑재하며 최소 구성 가격은 1799.99달러



반응형
Posted by 랩터 인터내셔널
01_s.png

인텔이 이미 OEM 업체에 출하하고 있는 7세대 Core 프로세서


미국 Intel은 8월 16일~18일(현지시간) 3일간, 샌프란시스코에서 Intel Developer Forum(IDF)을 개최하고 있다. 첫날에 진행된 기조 강연에는 CEO 브라이언 크르자니크가 등단했고 새 전략 등에 관한 설명을 진행했다.


이 기조 강연에서 Intel은 개발 코드 네임 카비레이크로 알려진 7세대 Core 프로세서의 실제 시연을 공개했다. 시연에서는 7세대 Core 프로세서의 특징인 HEVC 10bit 영상 디코딩의 모습이 진행되어 현행 제품인 6세대 Core 프로세서의 CPU 부하율이 50%에 가깝지만 7세대 Core 프로세서는 CPU에 거의 부하를 주지 않고 재생하는 모습이 공개됐다.


또, 기조 강연에서는 언급이 없었으나 전시장에는 올해(2016년) 후반에 투입을 계획하는 3D XPoint에 기반한 새로운 스토리지인 "옵테인(Optane)"의 클라이언트 버전 동작 샘플이 공개됐다.



7세대 Core로 HEVC 10bit 동영상의 하드웨어 디코딩 기능 시연

IDF의 기조 강연에서 개발 코드 네임 카비레이크로 불렀던 7세대 Core 프로세서의 시연을 벌인 크르자니크는 "4K 콘텐츠도 프리미엄 콘텐츠로 10bit의 색 영역을 지원하는 동영상이 늘고 있다. 7세대 Core 프로세서는 HEVC 10bit 동영상을 디코딩하는 기능을 갖추고 있어 HEVC 10bit의 4K 동영상을 2in1 디바이스에서도 재생할 수 있게 된다"며 그 시연을 IDF의 전시장에서 공개한다고 밝혔다.


인텔이 이번 전시 회장에서 시연한 시스템의 하나는 현행 제품인 6세대 Core 프로세서를 탑재한 서피스 프로4, 다른 하나는 7세대 Core 프로세서를 탑재한 시스템(단, 시스템은 문 안쪽에 숨어 있어 확인불가). 전시장의 진행요원에 따르면 6세대 Core는 CPU와 GPU의 연산기를 이용하여 디코딩 하고 있기 때문에 CPU 부하율이 높았지만 7세대 Core는 GPU만 하드웨어적으로 디코딩 하기 때문에 CPU 부하율이 매우 적게 먹힌다고 한다.

현 시점에서 7세대 Core 프로세서가 어떤 구조로 되어 있는지는 드러나지 않고 있지만 HEVC 10bit 동영상을 하드웨어적으로 디코딩하는 기능을 갖추고 있다고 생각된다.


04_s.png
IDF의 전시장에서 6세대 Core 프로세서(왼쪽)과 7세대 Core 프로세서(오른쪽)의 4K HEVC 10bit 영상 디코딩 시연

크르자니크는 "7세대 Core 프로세서는 고객에 출하를 시작했다. 탑재 시스템은 가을에 등장할 것" 이라며 신제품의 등장을 예고했다.


07_s.png
 인텔의 리얼센스 신형 카메라 Camera 400

그 밖에 PC용 인텔 리얼센스 카메라의 최신 버전인 RealSense Camera 400도 공개됐다. RealSense 400은 현행 RealSense보다 얇고 작아지며 성능이 좋아졌다고 한다. 3D 캡쳐 포인트 수가 2배로 증가하여 2배 넓은 영역을 커버할 수 있다고 크르자니크는 설명했다.


클라이언트 전용 옵테인을 조용히 전시, PCI Express기반의 확장 카드 방식

또 인텔은 IDF의 전시장에서 3D XPoint 베이스의 SSD인 옵테인의 클라이언트 전용 버전의 라이브 시연을 보였다. 공개된 것은 PCI Express 확장 카드형으로 X99 칩셋의 마더보드 상에서 동작하고 있었다. 비교 대상으로 마련된 것은 역시 PCI Express 확장 카드 형식으로 제공된 Intel SSD 750(400GB). 단, OS는 리눅스이며 윈도우의 시연은 없었다. 진행 요원에 따르면 옵테인은 인텔 SSD 750과 비교하면 3.7배 고속이라고 한다.


또한 진행 요원에 따르면 앞으로 어떤 형태로 제공해 나갈지 등은 미정이지만 OEM 업체 소식통의 정보에 따르면 인텔이 곧 발표할 것으로 예상되고 있는 7세대 Core 프로세서용 칩셋인 Intel 200 시리즈·칩셋과 조합한 사용을 장려한다고 볼 수 있고, 7세대 Core 프로세서가 발표되면 옵테인이 머지 않은 미래에 시장에 등장하게 될 것 같다.



10_s.png
지포스 비디오 카드 아래 슬롯에 장착되어 있는 것이 옵테인


출처 - http://pc.watch.impress.co.jp/docs/news/event/1015283.html

반응형
Posted by 랩터 인터내셔널
1_s.png


인텔은 현재 개최 중인 개발자용 이벤트 "IDF16 San Francisco" 에서 새로운 소형 개발 보드 "줄(Joule)"을 발표했다. IDF 페이지에서 공개되고 있는 테크니컬 세션 자료에서 Joule의 상세한 내용을 전달한다.


우선 줄의 정확한 본체 크기는 48×24×5mm(폭×두께×높이) 임이 자료에서 밝혀졌다. 표면의 플레이트는 "서멀 트랜스퍼 실드"로 알려졌으며 히트 싱크의 역할을 하고 있다.


바닥에는 100핀 커넥터를 2기 장비하고 있으며 USB 3.0과 PCI Express, USB 2.0, SDIO, 4레인의 MIPI DSI, HDMI 1.4, I2S, 디지털 마이크, I2C× 5, SPI× 2, UART× 4 및 4개의 PWM을 지원하는 48 GPIO을 전송하는 역할을 한다.


개발 보드에는 베이스 캐리어 보드와 연결하여 이들 인터페이스를 활용한다. 베이스 캐리어 보드에는 12V/3A의 DC IN 이나 USB 3.0 Type-C, USB 3.0 Type-A, Micro HDMI 출력, 3개의 컨트롤 버튼 및 4개의 범용 LED 등을 갖추고 있다.



2_s.png
Joule 모듈의 아키텍처


Joule의 최대 특징은 고성능 SoC "Atom T5700/T5500" 탑재다. CPU의 아키텍처에 대해서는 공개되지 않았지만 Atom x7을 기반으로 한 쿼드 코어 CPU인 점에서 브라스웰/체리트레일 세대에 상당한다고 생각된다.


기존 에디슨은 1세대 전의 베이트레일 2코어/500MHz 동작이었지만 Atom T5700/T5500은 4코어/2.2GHz 동작(1코어시 2.4GHz)로 크게 고속화되고 있다. 이 때문에 성능은 6배~10배에 달한다고 한다. 다만 실제로 줄에 탑재되는 것은 최대 1.7GHz의 동작이다.


반면 GPU도 스카이레이크 기반 Gen9(본 제품은 Gen9LP 표기)이 되며 이 점은 Braswell/Cherry Trail보다 앞서고 있다. Braswell/Cherry Trail은 실행 유닛(EU)수가 최대 16기지만 Atom T5700/T5500에서는 18기다. 클럭도 600MHz에서 650MHz로 약간 고속화 됐다. Atom x5-Z8500과 비교하여 약 1.4~1.5배의 성능을 실현한다.


메모리는 LPDDR4로 서드 파티제의 것과 CoPOP 기술을 이용하여 접속한다. 바닥에는 8~16GB의 eMMC 5.0 기반 플래시 스토리지를 갖춘다. 또, 보드상에는 "Intel Dual Band Wireless-AC 8260" 무선 LAN+Bluetooth 4.2 모듈 및 파워 매니지먼트 IC도 탑재된다. OS는 리눅스 계열 및 윈도우10 IoT Core를 지원하고 있다.



11_s.png
탑재되는 Atom T5700/T5500 프로세서

그 동안 메이커가 IoT 기기를 개발할 경우 컨셉 이후 디자인 및 통신 하드웨어의 설계, OS 레벨 코드 개발, 커스텀 캐리어 보드 개발 및 각종 인증을 취득할 필요가 있었다. 그러나 줄을 사용하면 캐리어 보드를 아웃 소싱에 의해서 설계/제조/개발하는 것만으로 자신의 시스템에 적용할 수 있고 양산까지의 기간을 대폭 단축할 수 있다.


기보한 대로 IDF에서는 이미 캐리어 보드와 세트가 된 "Joule 570x Dev Kit"의 직매회를 실시하고 있지만 일반 양산 출하도 9월에는 시작되며 10월에는 570x의 모듈 세트와 벌크판 및 "Joule 550x"의 Dev Kit과 모듈 세트, 벌크판이 추가된다. 또 4분기에는 570x와 "RealSense ZR300"을 묶은 모델도 준비된다.



4_s.png
Joule을 이용함으로써 제품 개발에서 많은 순서를 줄일 수 있다


12_s.png


출처 - http://pc.watch.impress.co.jp/docs/news/event/1015334.html

반응형
Posted by 랩터 인터내셔널
01_s.jpg

인텔이 발표한 프로젝트 알로이(Project Alloy)


인텔의 개발자 행사 "IDF(Intel Developer Forum)"이 8월 16일 ~ 8월 18일(현지시간) 3일간 미국 캘리포니아주 샌프란시스코 모스콘 센터 니시홀에서 개최되고 있다.


IDF는 예년 중국의 선전에서 IDF Shenzhen으로 4월에 치러지고 여름부터 가을까지 IDF San Francisco로서 샌프란시스코에서 8월 ~ 9월까지 2차례 개최되며 인텔의 최신 전략이 공개되거나 최신 제품이 전시되는 주요 이벤트가 되고 있다.


첫날인 8월 16일 오전 9시(한국시간 8월 17일 오전 1시)부터 Intel CEO 브라이언 크르자니크의 기조 강연이 진행됐다. 이 가운데 크르자니크는 "Project Alloy(프로젝트 알로이)"로 불리는 VR/AR 양쪽을 커버하는 MR(Merged Reality) 디바이스를 소개하고 실제 스테이지 위에서 소개했다.


Project Alloy는 HMD에 컴퓨팅 기능, RealSense 카메라를 이용한 각종 센서 기능 등이 모두 통합되어 현재의 VR HMD 처럼 PC 나 별도의 센서가 필요 없이 모든 환경에서 이용할 수 있는 것이 큰 특징이다.


PC센서, 카메라 모두가 HMD에 통합된 일체형 Project Alloy

02_s.jpg
Intel CEO 브라이언 크르자니크


크르자니크는 "현재의 VR HMD는 케이블이 붙어 있거나 센서가 별도로 필요하거나 처리기가 별로 없다. 그래서 우리는 새로운 디자인을 도입하기로 했다" 며 보다 사용자가 쓰기 쉬운 디바이스로서 설계한 것이 "Project Alloy"라고 밝혔다.


크르자니크에 따르면 Project Alloy는 컴퓨터의 기능이나 각종 센서 등이 모두 HMD에 통합되어 "이는 올인원 HMD" 라고 설명했다. 이것만으로 하나의 컴퓨터로 동작하고 HMD로 이용할 수 있는 유닛이다.



03_s.jpg
기존 VR HMD에는 케이블이나 대형 센서가 필요


기존 VR HMD와 큰 차이는 RealSense 카메라를 센서로 준비하고 현실의 물체 위치를 VR의 세계에서 이용할 수 있으며 카메라를 이용하여 캡처한 물체를 VR 세계 속에 등장시킬 수 있는데, 크르자니크의 기조 강연 시연에선 시연 담당자의 팔을 VR화면 속에 등장시키고 그것에서 스위치를 누르거나 하는 사용 방법을 보여주고 있었다.


이 밖에도 충돌 인지나 회피 기능 등도 준비되어 있어 안전하게 VR 공간을 돌아다닐 수 있게 된다.



11_s.jpg
플레이어의 손을 VR 안에 등장시킬 수 있다


또한 MR기기라는 측면에서 마이크로소프트의 홀로렌즈에 가까운 디바이스가 되지만 HoloLens가 반 투과형 디스플레이를 탑재하고 있는 것에 비해 Project Alloy는 액정 디스플레이를 채용하고 있는 점이 가장 큰 차이가 될 것이다.


윈도우 기반의 시스템으로 되어 있으며 OEM 업체의 시스템이 2017년 후반 투입

이미 말한대로 이 프로젝트 알로이에는 어떤 컴퓨터 기능이 탑재되는지는 밝혀지지 않았지만 IA 아키텍처임에 틀림 없다. 왜냐하면 이 발표에 별도 기사에서 소개한 대로 Microsoft Windows/기기 사업부 담당 선임 부사장 테리 마이어슨이 초청됐으며 이 프로젝트 알로이가 윈도우 기반임이 드러났기 때문이다.


마이크로소프트는 6월 COMPUTEX TAIPEI에서 Windows Holographic이라는 VR/MR용 플랫폼을 발표했으며 HoloLens 플랫폼을 OEM 업체 등에도 개방하는 대응을 보였다. 천명하지는 않았지만 프로젝트 알로이도 Windows Holographic 기반일 가능성이 높다.



12_s.jpg
Project Alloy는 디자인이나 API 등이 OEM 업체 등에 제공되며 OEM 업체 제품이 2017년 후반에 등장할 전망


인텔은 마이크로소프트와 협력하여 프로젝트 알로이의 디자인을 OEM 업체 등에 하드웨어나 소프트웨어를 개발하기 위한 오픈 API를 제공할 계획이며 크르자니크는 OEM 업체들이 자사 디자인의 프로젝트 알로이 베이스의 제품이 2017년 후반에 등장할 것이라고 밝혔다.


출처 - http://pc.watch.impress.co.jp/docs/news/event/1015270.html

반응형
Posted by 랩터 인터내셔널

마이크론은 독자 브랜드 QuantX와 OEM 공급으로 3D XPoint를 만든다

Intel과 Micron Technology가 공동으로 개발한 차세대 메모리 "3D XPoint"가 드디어 출발선에 선다. Micron은 3D XPoint 메모리를 자체 브랜드 SSD "QuantX"로 발매한다. 참고로 Intel은 3D XPoint 기술의 제품을 "Optane" 브랜드로 제공한다. 양사는 같은 3D XPoint 기반 제품을 각각 다른 브랜드로 발매한다.


또 Micron은 SSD 메이커 등에 3D XPoint 칩을 공급한다. 내년(2017년)에는 Intel과 Micron 외의 OEM SSD도 등장하게 된다. 한마디로 Micron은 이 새로운 메모리를 Intel과 Micron의 좁은 채널이 아니라 보다 넓은 범위로 시장에 공급하는 전략을 내놓은 것이다.


3D XPoint에 대해서는 지난해(2015년) 발표 때 Intel이 SSD와 DIMM으로 투입하겠다고 밝혔지만 Micron의 움직임은 명확하지 않았다. 그러나 Micron은 지난주 미국 산타 클라라에서 개최된 메모리 컨퍼런스 "Flash Memory Summit" 에서 QuantX 브랜드를 대대적으로 공개했다. 또 기술 세션이나 부스 설명 등에서 대략적인 전략과 배경의 이념도 설명했다.


05_s.jpg
3D XPoint를 앞세운 Micron Technology
06_s.jpg
3D XPoint의 IOPS 성능
07_s.jpg

또 Micron은 기존의 NAND SSD에 3D XPoint SSD가 랜덤 액세스 성능 지표인 IOPS(I/O per Second)에서 압도적 성능임을 강조했다. IOPS 성능이 요구되는 엔터프라이즈 스토리지에서는 3D XPoint 기반의 QuantX SSD가 매력적인 선택 사항이라고 설명했다. 간단히 말하면 기존의 SSD 보다 훨씬 고성능으로 종전과는 다르게 쓸 수 있는 SSD가 된다는 것이다.


Micron은 3D XPoint의 성능과 그에 대한 용량 코스트에서 당분간은 데이터 센터용 제품에 초점을 맞추어 갈 전망이다. 미국에서 가정 PC에 대한 SSD의 침투는 완만하고, 데이터 센터의 SSD가 급격히 진행되고 있다.


3D XPoint는 이번 주 샌 프란시스코에서 열리는 Intel의 기술 콘퍼런스 "Intel Developer Forum(IDF)" 에서도 이슈 중 하나가 되는 것은 틀림 없다. IDF에서 Intel은 3D XPoint의 기술 내용을 더 공개하고, 동시에 회사의 세부 제품 계획도 밝힐 것으로 보인다. Intel은 이미 3D XPoint샘플 SSD를 큰 고객에게 제공하고 있다고 Flash Memory Summit에서 밝혔다.


Intel은 3D XPoint을 SSD 뿐 아니라 DIMM 소켓으로도 제공한다. 후자에 대해서는 DIMM 소켓상의 3D XPoint를 장차 어떻게 다룰지 주목된다. 다만 현재 시점에서는 같은 메모리 버스 상의 DDR4 DIMM을 라이트 백 캐시처럼 사용하면서 3D XPoint DIMM 용량을 메모리 공간으로 최대한 사용하면서 DRAM의 쓰기 속도를 양립 시킬 것으로 보인다.





25_s.jpg
Intel도 3D XPoint를 다양한 폼 팩터의 SSD로 제공
27_s.jpg
3D XPoint의 DIMM 소켓 솔루션


셀렉터 재료에 특색이 있는 3D XPoint

3D XPoint는 Intel과 Micron의 공동 개발을 통한 새로운 비휘발성 메모리다. 포인트는 크로스 포인트 메모리인 점. 즉, 워드 라인과 비트 라인의 교점 사이에 메모리 셀을 구성한다. 교차점 메모리는 독특한 기술이 아니라 차세대 메모리 논문에서 흔히 찾아볼 수 있는 기술이다.


3D XPoint는 교차점이 1층이라면 "4F2"의 메모리 셀 크기다. 3D XPoint는 이 구조를 적층 하는 것으로 3차원 방향의 메모리 셀을 실현한다. 현재의 제품은 2층 즉, 상하에 2단 메모리 셀로 되어 있어 메모리 셀 크기적으로는 2F2 정도다.





23_s.jpg
3D XPoint 구조. 노란색과 초록색이 각각 메모리 소자와 셀렉터를 나타내고 있다




3D XPoint의 또 한가지 특징은 셀렉터에 있다. 3D XPoint는 메모리 소자와 셀렉터를 적층한 구조다. 3D XPoint의 메모리 소자는 PCM(Phase-Change Memory:상변화 메모리), 셀렉터는 OTS(Ovonic Threshold Switch)로 알려졌다.




16_s.jpg
Flash Memory Summit 분석가들 세션에서 제시된 3D XPoint 형의 메모리의 기본 구조
17_s.jpg
비휘발성 메모리의 셀렉터 재료 일람. 오른쪽이 3D XPoint의 기술이라고 하는 OTS




3D XPoint는 향후 메모리 셀의 적층 수를 늘린다.(= z 방향의 요소 수를 늘린다) 그와 동시에 메모리 셀의 가로 세로 크기(x와 y)을 미세화하여 대용량화 한다. 단, 메탈 배선층 사이에 메모리 셀을 배치하기 때문에 구조상 적층할 수 있는 수에 제약이 있다. 한 메모리 업계 관계자는 4층 정도를 한계로 말한다. 그 이상으로 적층 가능성이 있지만 현재 64층 3D NAND와 비교하면 적층할 수 있는 수에는 차이가 있다. 대용량 부분에서는 3D NAND에 따라오지 못할 전망이다.


그러나 3D XPoint에는 성능과 랜덤 액세스의 이점이 있다. NAND와 달리 3D XPoint 메모리는 DRAM 같은 워드 베이스의 세립 접속이 가능하다. 또 DRAM에 가깝기 때문에 CPU에 가까운 메모리로 다루기가 쉽다. DRAM의 완전한 대체는 아니지만 DRAM에 가까운, DRAM 보다 대용량으로 비휘발성 메모리로 사용할 수 있다.


현재의 3D XPoint는 칩 용량이 128G-bit. 즉 원칩으로 16GB의 용량을 갖는다. NAND 플래시는 이미 256~384G-bit 이므로 NAND에는 용량에 미치지 못하지만 선전은 하는 것으로 보인다.


그러나 20nm의 3D XPoint 다이 사이즈(반도체 본체의 면적)는 NAND 다이와 비교하면 몇배 크기로 크다. NAND 플래시와 비교하면 용량당 제조 원가는 상당히 크지만 DRAM과 비교하면 용량당 코스트는 상당히 낮다.


Flash Memory Summit에서는 본격 양산에 들어가는 2017년 현재의 MLC NAND에 비해 3.5배의 용량당 비용, DRAM에 비해서는 50% 이하의 용량당 비용으로 추측되고 있었다.





15_s.jpg
3D XPoint



시스템 성능의 제약은 프로세서에서 메모리/스토리지로 이행

3D XPoint 메모리는 프로세서 메이커인 인텔에게 사실은 사활적으로 중요한 기술이다. 왜냐하면 시스템 성능의 제약은 프로세서에는 없고, 메모리/스토리지로 옮겨졌기 때문이다. 특히 전력당 성능은 메모리/스토리지 계층의 충격이 크다. 먼 스토리지로부터 프로세서까지 데이터를 가져오기 위한 전력과 레이턴시가 성능을 깎고 전력 소비를 증가시킨다.


Flash Memory Summit에서는 Micron에서 3D XPoint 메모리를 담당하는 Steve Pawlowski(Vice President, Advanced Computing Solutions, Micron)가 등장, 컴퓨팅에서 3D XPoint 같은 새로운 "퍼시스턴트 메모리(PM:Persistent Memory)"의 중요 배경을 설명했다. 매우 흥미로운 것은 Pawlowski가 최근까지 Intel에서 프로세서의 리서치 수장이었던 점이다.


Pawlowski는 전에는 CPU의 명령 세트가 중요했지만 현재는 데이터를 어떻게 움직이는지가 중요하게 됐다고 설명했다. 데이터의 이동이 에너지를 필요로 하기 때문에 데이터를 최대한 프로세서의 근처에 둘 필요가 있다고 밝혔다. 특히 엑사스케일 세대 슈퍼 컴퓨터라면 메모리와 스토리지 사이에 대용량의 계층이 없으면 전력적으로 실현이 어렵다고 한다.


즉, 인텔은 향후의 프로세서 성능과 성능/전력을 향상시키는데 새로운 메모리를 절실히 필요로 한다. 인텔에서 엑사스케일을 포함해 장래의 CPU 연구를 이끌던 Pawlowski가 Micron에 3D XPoint를 담당하고 있는 의미는 크다. 인텔이 3D XPoint의 기술 감독을 시키기 위해 보냈을 가능성도 있다.





DSC01559_s.jpg
Pawlowski는 데이터를 CPU 근처로 가지고 올 필요가 있다고 설명
DSC01565_s.jpg
기존의 메모리와 스토리지의 간극을 메우는 메모리가 필요
DSC01586_s.jpg
Pawlowski의 강연에서 3D XPoint의 본명이 DIMM 타입인 것이 암시
DSC01588_s.jpg




메모리 컨퍼런스인 Flash Memory Summit에서 3D XPoint의 콤비 중 Micron의 비전과 전략이 나타났다. 내일 인텔 IDF 에서는 분신인 인텔의 비전과 전략을 확인할 수 있다.


출처 - http://pc.watch.impress.co.jp/docs/column/kaigai/1015196.html


반응형
Posted by 랩터 인터내셔널