웨스턴 디지털은 데이터 센터 전용 3.5인치 HDD "WD Gold"를 5월 13일부터 발매한다. 가격은 오픈 프라이스.

 

용량은 4TB, 6TB, 8TB 3가지로 중소 규모의 엔터프라이즈 서버 및 스토리지용으로 설계된 HDD. 새로운 부품의 채용으로 전 세대 데이터 센터 전용 HDD "WD Re"에서 전력 효율을 15% 향상, 또 헬륨 주입 기술 "HelioSeal"의 채용으로 전력 소비량을 경쟁 제품과 비교해 최대 26% 줄였다고 한다.

 

높은 내구성도 특징으로 8TB 모델에서는 MTBF(평균 고장 간격) 250만 시간을 실현, 1년당 최대 550TB의 데이터 처리가 가능하다고 한다.


WD Re 4TB 모델과 비교하여 순차 성능을 최대 18% 강화하고 미디어 캐시로 쓰기 성능을 WD Re 6TB 모델 대비 최대 30% 강화, 경쟁사 제품과의 비교에서는 최대 3배의 성능 향상을 강조.

 

인터페이스는 SATA 6Gbps, 캐시 용량은 128MB. 디스크 회전수는 7,200rpm.


출처 - http://pc.watch.impress.co.jp/docs/news/20160420_754151.html

반응형
Posted by 랩터 인터내셔널

 

글로벌 1위 반도체 업체 인텔이 2016년 1분기(1월~3월)실적을 발표했다. 발표 내용에 따르면 전체 매출액은 전년 동기 대비 7% 증가한 137억달러, 영업 이익은 전년 동기 대비 보합 26억달러, 순이익은 전년 동기 대비 약 3% 증가한 20억달러, 1달러당 이익은 42센트였다.


사업 부문 별 실적은 클라이언트 컴퓨팅(PC+모바일) 부문이 전년 동기 대비 2% 증가한 75억달러, 데이터 센터(제온) 부문은 전년 동기 대비 9% 증가한 40억달러, 사물인터넷 부문이 전년 동기 대비 22% 증가한 6억 5100만달러, 인텔 시큐리티 부문은 전년 동기 대비 12% 증가한 5억 3700만달러, 프로그래머블 솔루션즈 부문은 3억 5,900만달러로 거의 모든 사업부의 실적이 상승했다.


또, 이날 인텔은 향후 전략을 발표했다. 새 전략은 알테라의 FPGA(Field Programmable Gate Arrays) 및 신규 3D Xpoint 등의 메모리 반도체 기술을 활용한 데이터 센터 전용 솔루션 및 사물 인터넷 사업 강화를 위해 투자액을 증대하고, 현재 지속 성장하고 있는 2in1 PC와 게이밍, 홈 게이트웨이 세그먼트에도 투자액을 증대한다.


경영면에서는 2017년 중반까지 인텔의 전세계 직원 중 불 필요한 11%에 해당하는 인력(12000명)을 정리 해고하여 올해 안에 7억 5000만달러, 2017년 중반까지 14억달러의 경비 절감을 실현한다. 다만 2017년 2분기에는 12억달러의 손실(퇴직금 등 정리 해고 비용)을 예상하고 있다.

반응형
Posted by 랩터 인터내셔널
01_s.jpg

실제 환경에서 2GB/sec를 넘는 전송 속도를 보인 OPTANE SSD

 


인텔은 개발자를 위해 개최하는 기술 이벤트 "Intel Developer Forum(IDF)"를 중국 선전 시내의 호텔에서 진행했다. 봄에 열리는 IDF 선전은 주로 중국에 집중되어 있는 ODM 업체 등을 겨냥하고 있어 올해(2016년)에는 로봇이나 헬스 케어로 불리는 새로운 사용자 모델을 위한 내용이 중심이 됐다.

 

첫날에는 인텔의 현지 법인인 인텔 차이나 사장 및 인텔 본사 부사장인 이안 양과 인텔 부사장겸 데이터 센터 사업 본부장 다이언 브라이언트에 의한 강연이 열렸다. 이중 이안 양은 3D XPoint을 시연하고 그 전송 속도가 2GB/sec를 넘는걸 과시했다.


큐리와 리얼센스를 바탕으로 한 로봇이나 드론 전용 개발 킷 발표


이언 양은 IDF 16 선전의 기조 강연에서 디지털화, 클라우드 컴퓨팅, 스마트 인터넷에 접속된 세계의 확대라는 3가지 주제에 따라 이야기를 진행했다.


디지털화라는 관점은 큐리와 리얼센스에 대한 화제를 소개했다. 큐리는 단추 크기의 초소형 칩으로 지난해(2015년) CES에서 발표된 제품. 구체적인 개발 예로 여자가 붙이고 있는 Curie 디바이스에서 손과 발의 움직임을 데이터화하고 실시간으로 표시하는 패턴 매칭 시연 등이 진행됐다.


이언 양은 "큐리에 복수의 개발킷과 SDK 등을 제공한다"며 USB와 BLE(Bluetooth Low Energy)를 연결하고 개발에 사용할 수 있는 Genuino 101 보드를 포함 "Curie Board Support Package(BSP)", OEM/ODM 업체들의 개발을 용이하게 하는 "Intel iQ 소프트웨어 킷" 머신러닝이나 패턴 매칭 등을 쉽게 만들수 있는 "Intel Knowledge Builder Toolkit" 등의 제공을 발표했다.


또 인텔이 추진 중인 3D 카메라 솔루션 "RealSense"에 대해 1월 CES 기조 강연에서 공개된 RealSense를 로봇의 눈으로 이용하고 있는 세그웨이 로봇을 소개하는 등 RealSense가 PC 외에도 사용할 수 있는 점을 과시했다. "지금까지도 Intel RealSense 개발 킷을 제공했는데 그것은 Windows용이었다. 이제는 오픈 API로 Linux, Android, OS X, Windows를 지원한다"고 밝혔다.

 

또 로봇 개발을 RealSense에서 하고 싶은 개발자에게 "Intel RealSense ROBOTIC Development Kit"을, 드론 개발자에게 "Intel Aero Platform for UAV"를 제공한다. 저렴하게 로봇이나 드론 개발을 할 수 있게 된다고 어필했다.

 

두번째 주제는 클라우드 컴퓨팅의 확대. 이안 양은 "현재 클라우드 컴퓨팅으로 말하면 스마트 폰이나 PC에서 이용한다는 이미지라고 생각하지만 가까운 장래에 IoT 기기도 클라우드를 이용하게 되고, Cloud of Things의 시대가 올것" 이라며 클라우드 컴퓨팅과 IoT를 조합함으로써 보다 편의성이 높은 세계가 온다고 설명했다.

 

그 예로 NBA 농구 경기를 복수의 카메라로 촬영하여 시청자가 시점을 자유롭게 전환하는 시연을 선 보였다. 심지어 인텔이 제공하고 있는 IoT 개발 환경 Intel IoT Platform을 기반으로 한 중국 정부나 중국의 병원이 협력하여 개발한 사례 등을 소개했다.

 


3D XPoint기반의 인옵테 SSD를 윈도우PC에서 시연, 약 2GB/sec라는 전송 속도를 실현


세번째 스마트 인터넷에 접속된 세계의 확대란 부분은 주로 인텔이 지난해 인수를 발표한 FPGA 업체인 Altera(알테라)와 협업에 대한 설명이 진행됐다. 이안 양은 현재 컴퓨터 업계에서 큰 화제가 되고 있는 기계 학습(기계에 의한 자동 학습)을 언급하며 그 솔루션으로서 Altera의 FPGA을 탑재해 엑셀러레이터로 이용할 수 있다고 어필했다. 또한 인텔은 "Arria 10 FPGA"와 "Xeon E5 v4"를 1패키지로 만든 제품을 이미 발표하고 있으며 14nm 프로세스에서 생산된 Stratix 10을 넣은 제품은 4분기에 출하한다.


29.jpg


 

그 뒤 NAND 플래시 메모리를 언급하며 인텔이 처음으로 3D NAND 플래시 메모리로 제조한 엔터프라이즈용 SSD를 발표하고 향후 현재의 NAND 플래시 메모리보다 더 큰 고속화가 실현되는 3D XPoint Technology 기반 제품의 투입도 밝혔다. 인텔의 부사장 겸 NV메모리 솔루션 사업부장 롭 클락을 단상에 불러 3D XPoint의 장점 설명과 시연이 진행됐다.

 

이 가운데 롭 클락은 옵테인 브랜드 이름으로 판매될 예정의 3D XPoint를 이용한 SSD 샘플을 탑재한 PC를 공개하고 Thunderbolt 3로 접속되고 있는 외장 옵테인 SSD에 데이터를 복사하는 시연을 보였다. 그 카피 속도는 약 2GB/sec(화면상에서는 1.9xGB/sec으로 표시)로 기존의 NAND SSD에 비해 압도적으로 고속이었다. 물론 이것은 초기 샘플의 시연이며 실제 제품은 더 빨라질 것으로 예상된다.


이안 양은 인텔이 중국 다롄에 있는 공장에 대한 투자를 이어 간다며 향후 3~5년 동안 35억달러를 투자한다고 중국 관계자들에게 어필했다.


출처 - http://pc.watch.impress.co.jp/docs/news/event/20160413_753106.html

반응형
Posted by 랩터 인터내셔널

DSC04413.jpg


인텔은 15일 "Storage Builder Executive Summit" 이라는 서버 및 데이터 센터 등의 스토리지 인프라 관련 행사를 개최했다.

 

이 행사에는 미국 인텔 스토리지 사업부 디렉터 글렌 웨인버그가 등단, 인사를 함과 동시에 인텔의 최신 스토리지 솔루션을 소개했다.

 

웨인버그는 2016년 현재부터 2020년까지 전 세계의 디지털 데이터 량은 2년마다 약 2배로 확대될 것이라 전망되고 있으며 그 데이터 량의 대폭 증가와 데이터를 사용하는 목적의 변화, 신기술의 등장, 클라우드 컴퓨팅 등의 차세대 플랫폼의 전환이라는 요인에서 스토리지 인프라 스트럭처는 변화를 겪고 있다고 밝혔다.


환경 변화의 예로서 2026년에는 SAN(Storage Area Network)과 NAS(Network-Attached Storage), DAS(Direct-Attached Storage)라는 기존의 엔터프라이즈 스토리지는 극히 소량이 되고, SDS(Software-Defined Storage)인 하이퍼 스케일 서버 SAN 스토리지, 엔터프라이즈 서버 SAN스토리지가 증가하여 시장을 거의 2분할 할 것이라는 전망도 이뤄지고 있다고 한다.

 

신기술의 등장이라는 점에 대해서는 기존 시스템의 인프라 스트럭처는 스토리지의 저속화와 고 레이턴시의 문제를 커버하기 위해 발전했지만 SSD의 등장에 의해 개념이 뒤집히고 있다고 밝혔다. SCSI와 SATA라고 하는 구형 인터페이스에서 플래시 스토리지의 탄생에 의해 PCI Express 버스로 직접 접속하는 NVM Express 접속의 고속 스토리지가 등장했고 인텔에서는 차세대 NVM과 3D XPoint 기술로 세계 최고 속도의 SSD와 DRAM 간 스토리지의 사이를 메우는 "스토리지 클래스 메모리"를 실현하여 모든 계층에 적합한 스토리지를 제공할 수 있어 적절한 솔루션을 선택할 수 있게 된다고 설명했다.

 

인프라의 상황은 클라우드와 엔터프라이즈 사이에는 공백 지대가 있으며 데이터가 어디 있는지 묻지 말고 언제 어디서나 필요에 응해 접속할 수 있는 환경이 요구된다. 그것을 실현하는 것이 통합형과 분산형 클라우드 운용을 조합한 하이브리드 클라우드 스토리지라고 밝히며 스케일 아웃, 스케일 업이 가능하고 소프트웨어 정의 인프라로 높은 부가 가치를 고객에게 제공할 수 있다고 설명했다.


인텔에서는 데이터 센터 스토리지에 대한 하드웨어, 소프트웨어, 에코 시스템, 솔루션의 4가지 측면에서 투자했고, 구체적으로는 하드웨어라면 Xeon 등 스토리지에 최적인 프로세서, 3D XPoint를 기반으로 한 옵테인(Optane) 기술, 소프트웨어에서는 스토리지 기술 개발 킷(SPDK) 제공, MSFT/VMWare에 대한 최적화, 에코 시스템에서는 스토리지 빌더 프로그램, OpenStack나 오픈 스토리지 표준화의 공헌(Ceph와 Swift등), 솔루션은 레퍼런스 디자인 제공 및 벤치마크 테스트 검증 등의 기술 협력과 같은 투자를 하고 있다고 밝혔다.

 

또 "스토리지 빌더 프로그램"은 3월 31일(미국시간)에 출범된 직후 이미 73개 이상의 기업이 커뮤니티에 참여하며 확고한 생태계를 구축할 수 있다고 밝혔다.

 

그 생태계에 따른 추가 기술 혁신이나 차세대 솔루션 촉진, 개발 인력의 절감, 더 빠른 시장 투입을 실현하고 기술 혁신을 활용하기 위한 솔루션 스택 최적화, 실제 활용 사례를 결집한 인테그레이션, 복수 벤더 솔루션의 상호 운용을 실현한다는 것이다.


마지막으로 웨인버그는 "협력하여 복잡한 문제를 해결할 때가 됐다" 며 지금이 그 타이밍이라고 강하게 어필하고 등단을 마쳤다.


출처 - http://pc.watch.impress.co.jp/docs/news/20160415_753511.html

반응형
Posted by 랩터 인터내셔널

 

 

 

엔비디아는 세계 최초의 공식 로봇 자동차 경주 'Roborace Championship'에 출전하는 자동차에 인공 지능(AI) 용 컴퓨터를 제공한다고 발표 했습니다.


엔비디아의 드라이브 PX 2 AI 라 불리는 컴퓨터의 크기는 도시락 크기 정도로 레이더, 라이더(광 센서), 카메라, GPS, 고해상도 매핑 등의 정보를 처리하며 맥북프로 150대 분량에 필적하는 프로세스 능력을 갖추고 있습니다. 이 컴퓨터는 딥러닝(심층 학습)에 대응하여 레이스를 거듭할수록 더 좋은 성능을 발휘할 수 있습니다.


Roborace Championship에 출전하는 10팀은 엔비디아 드라이브 PX 2를 탑재한 2대의 무인 자동차와 1시간가량 경주를 하게 됩니다. 자동차의 성능은 같기 때문에 경쟁 우위를 결정하는 것은 각 팀의 인공지능(AI) 개발 능력 입니다.


자동차의 디자인은 SF 영화 Tron:Legacy에 등장하는 "라이트 사이클"의 디자이너, Daniel Simon이 맡았다고 합니다.

반응형
Posted by 랩터 인터내셔널
4_s.jpg
Broadwell-EP와 Altera의 FPGA "Arria 10 GX"를 1패키지로 통합한 Xeon

 


지난 3월 9월~10일(현지 시간) 미국 새너제이에서 열린 Open Compute Project US Summit 2016에서 인텔이 흥미로운 신제품 2가지를 선보였다.

 

첫번째는 Broadwell을 기반으로 한 16코어/32스레드 "Xeon D-1581". 지금까지 Xeon D는 8코어였기 때문에 코어 수가 배가 된다. 강연 설명에서는 페이스북의 협업으로 16코어와 Ethernet 내장을 실현하는 다이를 공개했지만 크기를 보면 8코어 제품과 큰 차이는 없고 새로운 다이인지는 불명.


만일 새 다이인 경우 Broadwell-EP와는 다른 계통의 다중 코어 구성 다이로 그 경우 링 버스의 구조 등 약간 의문점이 남는다. 또 다이가 가짜일 가능성도 있고 8코어 ×2의 Multi-Chip Package(MCP)구성 가능성도 남아 있다.


이 Xeon D-1581은 1.9GHz로 구동하고,(다만 Ark의 정보로는 베이스 1.8GHz, Turbo시 2.4GHz 구동으로 알려졌다) 캐시는 24MB, TDP는 65W. 대응 메모리 채널 수는 듀얼채널 DDR4와 3을 양쪽 모두 지원한다. PCI Express 레인 수는 32. Monolake 플랫폼 전용 SKU가 될 것으로 보인다.


또한 Intel Ark에는 TDP 45W로 16코어 "Xeon D-1571"과 "Xeon D-1577", 12코어 "Xeon D-1557"과 "Xeon D-1567"(TDP 65W)의 제품 정보도 조용히 추가되었다.


 

1_s.jpg
이때 처음 발표된 Xeon D-1581
2_s.jpg
16코어 Xeon D의 다이. 기조 강연 동영상을 보면 이 칩에 이더넷을 내장하고 있다고 볼 수 있지만 자세한 것은 불명이다


그리고 두번째는 인텔이 인수한 알테라의 FPGA "Arria 10 GX"를 MCP로 1개의 패키지로 통합한 제온이다. 강연에서 제시된 슬라이드를 보면 15코어 Broadwell-EP를 통합하며 이 Xeon은 이미 샘플 출하가 시작되고 있다. 다만 영상만으로는 대응 소켓은 불명이다. 적어도 LGA2011-v3는 아닌 것 같다.

 

현재 데이터 센터는 FPGA 채용이 초점의 한가지다. 인텔은 제온과 Arria 10 GX를 통합함으로써 데이터 센터에 Altera FPGA를 침투시키려는 의도가 있을 것이다.


아래 슬라이드는 ISCA 2015(42회 International Symposium on Computer Architecture)에서 제시된 Ivy Bridge와 FPGA을 통합시키는 구상을 나타낸 슬라이드로 FPGA와 CPU는 QPI로 연결되는 것으로 나타났다.


 

5_s.jpg
Ivy Bridge와 FPGA을 통합한 이미지
3_s.jpg
15코어 Broadwell과 Arria 10 GX를 MCP로 1패키지에 담았다


참고로 알테라는 "EMIB(Embedded Multi-die Interconnect Bridge)" 라는 인텔의 새 패키지 기술을 채택하여 다른 다이(반도체)을 1패키지로 제안했다. 이 제온도 EMIB을 채용한 가능성이 있을 것으로 볼 수 있지만 슬라이드는 "MCP"라고 쓰여 있으므로 다른 것으로 보인다.

      


출처 - http://pc.watch.impress.co.jp/docs/news/20160408_752237.html

 

반응형
Posted by 랩터 인터내셔널
02_s.jpg

NVIDIA CEO 젠슨 황

 

GTC에서 젠슨황 CEO가 파스칼을 대대적으로 발표

NVIDIA가 주최하는 GPU 컴퓨팅 컨퍼런스 "GPU Technology Conference(GTC)"에서 엔비디아는 차세대 GPU 아키텍처 "Pascal(파스칼)" 베이스의 GPU를 공식 발표했다. 이번에 발표된 것은 HPC(High Performance Computing)/서버용 하이엔드 GPU "테슬라 P100(GP100)". 앞선 세대의 Maxwell(맥스웰)은 하위 GPU부터 발표됐지만 이번 파스칼은 최상위 GPU부터 도입된다.

 

GTC의 기조 강연에서 NVIDIA의 젠슨황 CEO는 파스칼의 5가지 기술 포인트를 강조했다.


 

  • 파스칼 아키텍처
  • 16나노 FinFET 3D 트랜지스터 프로세스
  • 실리콘 인터포저를 사용한 HBM2 메모리 기술
  • 프로세서 간 접속의 NVLink
  • 새로운 AI 알고리즘
01_s.jpg
NVIDIA가 강조하는 Pascal의 5개 포인트
03_s.jpg
데이터 센터 전용 GPU, GP100


마지막 AI 알고리즘은 GPU 측의 아키텍처 확장 결과에 의해서 실현되는 것이므로 파스칼 자체의 기술 혁신은 4가지다. 후술 하지만 사실은 파스칼의 중요한 특징은 최초의 GPU 마이크로 아키텍처 쇄신이다. 지금까지와는 방향을 바꾸어 GPU의 실효 성능을 올리는 방향으로 마이크로 아키텍처가 크게 확장됐다.

      

두번째의 프로세스 기술 혁신도 중요하다. 종래의 28nm 평면 트랜지스터 프로세스에서 16나노 핀펫 3D 트랜지스터 프로세스로 누설 전류(Leakage)가 크게 억제되어 전력 효율이 높아졌기 때문이다. HBM2 메모리는 720GB/sec(가까운 장래에는 1TB/sec)초 광대역을 실현한다.

 

또 NVLink는 GPU 간을 40GB/sec의 링크로 직접 접속함으로써 GPU의 확장성을 극적으로 향상시킨다. GP100은 NVLink를 4링크로 준비해 8 GPU까지 2홉에 접속할 수 있다. 지금까지는 2GPU 구성이 일반적인 최대 규모의 노드에서 파스칼에는 8GPU 구성까지 확장된다.


이처럼 파스칼에서는 GPU 자체의 성능을 올릴 뿐 아니라 멀티 GPU 구성을 용이하게 하는 것으로 멀티 GPU에 의해 컴퓨트 노드당 성능을 극적으로 끌어올릴 수 있다. 덧붙여 IBM과 OpenPOWER의 Power 아키텍처 CPU도 NVLink를 지원하기 위해 NVLink GPU를 CPU에 직결할 수도 있다.



 

Pascal_752_s.jpg
Pascal의 아키텍처적 강점
Pascal_767_s.jpg
확장성을 향상시키고 극적으로 노드 성능을 끌어올린다
05_s.png
NVLink에 의한 8 GPU 구성 사례
Pascal_872_s.jpg
NVLink에 의한 8 GPU 구성 사례
Pascal_877_s.jpg
CPU와 GPU을 NVLink로 접속하는 경우


이렇게 열거하면 이번 파스칼이 NVIDIA GPU에 있어서 기술적으로 매우 큰 점프인 것으로 보인다. 프로세스 기술, 마이크로 아키텍처, 메모리와 패키징, 인터 커넥트 기술로 근본적인 기술 혁신이 빚어지고 있다. 점진적인 확장이었던 맥스웰과는 크게 다르며 그 전의 Kepler의 혁신보다 임펙트가 훨씬 크다.

 

NVIDIA GPU에 있어서 혁신 아키텍처가 파스칼이다. 또 향후 10nm 세대로 보이는 Volta(볼타)등 GPU는 이 파스칼의 연장선에 있을 것으로 추측된다. 그런 의미에서 앞으로 몇 세대의 NVIDIA GPU의 초석이 되는 GPU라고 할만하다.


 

FinFET 프로세스에 의해 동작 주파수와 성능을 끌어올린다

파스칼은 NVIDIA에게 FinFET 프로세스의 첫 외장 GPU다. 프로세스 노드의 숫자가 16이므로 제조원이 TSMC 인 것으로 나타났다. 트랜지스터가 누설 전류(Leakage)가 적은 FinFET이 되면서 전력당 성능이 오른다. 실제로 작동 주파수는 베이스가 Maxwell기반의 Tesla 948MHz에 비해 파스칼 베이스 Tesla는 1,328MHz로 크게 오르고 있다. 이는 전력을 절감함에 따른 주파수 향상의 여지가 생성됐기 때문이다.

 

또, 프로세스가 미세화 되면서 다이당 트랜지스터 수는 앞 세대 Maxwell의 최대 구성인 GM200의 8B(80억 트랜지스터)에서 15.3B(153억)으로 1.91배로 거의 배증됐다. 다이 사이즈(반도체 본체의 면적)은 거의 같은 610mm2(GM200은 601mm2)이므로 트랜지스터 밀도가 1.88배가 됐다. 동작 주파수가 올랐고 트랜지스터 수가 늘면서 연산 성능도 증가했다. 앞선 세대의 Tesla M40(GM200)과 비교하면 단정밀도(32-bit) 부동 소수점 연산 성능은 7TFLOPS에서 10.6TFLOPS로 1.5배로 향상됐다.



 

06_s.jpg
GPU의 다이 사이즈
07_s.jpg
GP100보드. 중앙이 GPU로 그 주위의 4개 모듈이 HBM2


그러나 파스칼 아키텍처의 특징은 이러한 기존의 GPU의 FLOPS 경쟁 이외의 부분에 있다. 파스칼에서는 단순히 단정밀도(32-bit:FP32) 성능 향상 뿐 아니라 메모리 대역 레지스터 수와 기내 쓰레드 수, 배정밀도(64-bit:FP64)와 반정밀도(16-bit:FP16) 부동 소수점 연산 성능을 대폭 높인 점이다. 한마디로 기존 GPU의 성능 경쟁과는 다른 스펙이 파스칼에서는 강화되고 있다.

      

FP32의 피크 성능 이외의 부분을 크게 확장

파스칼에서는 앞 세대 Maxwell에 비해 메모리 대역은 3배인 720GB/sec에 레지스터 수와 스레드 수는 2배로 공유 메모리는 1.3배, 배정밀도(FP64) 성능은 25배, 반정밀도(FP16) 성능은 3배인 21.1TFLOPS가 됐다. FP16의 20TFLOPS까지도 경이적이지만 FP64도 단번에 5.3TFLOPS가 된 실용적인 성능이 됐다.


     

Pascal_899_s.jpg
HBM(High Bandwidth Memory)2 스택 메모리로 메모리 대역이 3배


또 파스칼에서는 CPU와 메모리 공유 통합 가상 메모리 구조를 개선(GPU의 가상 메모리 공간을 확장하는 페이지 폴트의 지원 페이지 크기를 CPU에 맞춘) 콘텍스트 스위치 기능을 구현하고 GPU 간의 광대역 인터 커넥트를 갖춘 것도 특징이다. GPU 간을 직접 접속하는 NVLink에 의해서 GPU 간 대역은 5배로 직접 접속할 수 있는 GPU는 8개이며 제약이 강한 GPU의 확장성이 크게 향상됐다.


     

Pascal_910_s.jpg
페이지 이행 동력으로 부르는 가상 메모리 관련 확장
Pascal_921_s.jpg
유니파이드 메모리


한마디로 마케팅적으로 영향이 있는 FP32 FLOPS 수의 배증에 연연하지 않고 프로세서로서 실효 성능의 향상에 주력한 것이 파스칼 아키텍처다. 프로세스의 미세화와 트랜지스터 수의 배증을 감안하면 NVIDIA는 파스칼 세대에서 단정밀도(FP32) 연산 유닛을 배가시키고 15TFLOPS의 GPU를 만들 수 있었다. 그러나 NVIDIA는 단정밀도 유닛은 죽이고, GPU를 효율적으로 가동시키는 기능에 늘어난 자원을 할애했다. 그래서 파스칼은 겉보기 스펙 이상으로 효율 성능이 높은 프로세서가 될 것으로 보인다.


구체적으로는 메모리 대역 확장으로 메모리 스톨이 줄어들 뿐 아니라 기내 쓰레드 수의 증대로 메모리 레이턴시가 향상되어 이 점에서도 GPU 가동률이 오른다. FP16(반정밀도)연산의 도입에 의해 FP16시의 효율 향상, GPU 사이의 데이터 교환의 효율도 올라간다. 지난 수세대 GPU에서 문제였던 GPU의 실효 성능 문제가 대폭 경감된다. FP16과 FP64의 성능은 두 정밀도를 필요로 하는 어플리케이션의 성능을 향상시킨다. 그 중에는 FP16 이용이 트렌드가 되는 딥러닝도 포함된다.

 


 

Pascal_787_s.jpg
3세대 Tesla의 피크 성능 비교
08_s.jpg
3세대 Tesla의 피크 성능 비교


60개의 SM을 배치한 거대한 GPU 구성

Tesla P100(GP100)의 전체 구성은 아래의 그림과 같다. GPU 전체에서 총 60개의 SM(Streaming Multiprocessor)이 배치되고 있다. 제품 SKU는 60개의 SM 중 4개가 무효화되고 56개의 SM 구성으로 출하된다. 이는 610mm2의 대형 다이의 경우에는 다이 위에 흠이 있어 불량 코어가 발생할 확률이 높기 때문이다. 불량 SM을 무효화하는 용장성을 갖게 함으로써 제품 수율을 올릴 수 있다.


     

09_s.png
Pascal_772_s.jpg


메모리 컨트롤러는 그림에서는 합계 8단위. 2유닛씩 1개의 HBM2 모듈에 연결된다. 각 메모리 컨트롤러가 512-bit 너비의 메모리를 제어한다. 오프 칩의 프로세서 간 인터 커넥트 NVLink는 그림 아래에 배치되고 있다. GP100은 4링크 구성되어 최대 4개의 GPU 또는 CPU와 직접 커넥트 할 수 있다.


중앙에 그려진 것은 L2 캐시로 이것도 Maxwell의 3MB에서 4MB로 늘리고 있다. L2는 실제로 메모리 컨트롤러에 가까이 배치되고 있는 것으로 보인다. 그림 위에 그려진 것은 PCI Express gen3 인터 커넥트와 GPU 전체 스레드 발행을 총괄하는 쓰레드 엔진이다.

 

60개의 SM은 10개씩 GPC(Graphics Processing Cluster)를 구성하고 있다. GPC는 말하자면 GPU 안의 미니 GPU로 GPU의 실행 파이프의 대부분을 포함, GPC는 GPU 전체에서 6개다. 파스칼 GP100의 GPC 수는 사실 Maxell GM200과 같다. 그러나 SM의 수는 GM200의 24개에 비해 GP100은 60개(유효화되는 것은 56개)러 크게 늘고 있다. 이것은 각각의 SM 구성이 작아졌기 때문이다.


 

SM구성을 Maxwell의 절반으로 변경

맥스웰과 파스칼은 SM 구성이 다르다. 핵심 CUDA 코어(FP32 부동 소수점 연산 프로세서)는 Maxell이 각 SM에 128개인데 파스칼은 64개다. 파스칼에서 1개의 SM이 크게 2개 블록으로 분할되며 각각 Warp 스케줄러 듀얼 명령 발행 유닛이 있다. 2개의 처리 블록은 각각 개별 Warp 배치를 수행하고 연산 유닛군으로 로드/스토어 유닛, 레지스터도 유닛으로 나뉜다.


그러나 텍스처 유닛과 텍스처/L1, 메모리는 2처리 블록에서 공유된다. 참고로 SM 당 64 FP32유닛의 구성은 AMD의 GCN(Graphics Core Next) 아키텍처의 CU(Compute Unit)와 같지만 내부 구성은 크게 다르다.



 

Pascal_794_s.jpg
Pascal아키텍처의 SM구성
10_s.png


SM구성을 Maxwell과 비교하면 Maxwell에서는 SM이 4개의 처리 블록으로 구성되어 있었다. 파스칼과 마찬가지로 개개의 유닛이 개별적으로 명령 유닛과 연산 유닛, 레지스터를 가진 구조다. 파스칼의 SM 설계는 이 Maxell SM을 2개로 분할하는데서 시작됐다고 한다. 2처리 블록씩 2개의 SM으로 분할, 절반의 연산 유닛 수가 된 SM에 공유 자원을 각각 배정했다.

      

Pascal_805_s.jpg
Maxwell의 SM의 구성
Pascal_832_s.jpg
Pascal의 SM의 구성


그 위에서 파스칼은 각 처리 블록의 자원을 대폭 강화했다. 자세한 건 나중에 리포트하겠지만 레지스터는 Maxwell이 각 블록 64KB(32-bit 레지스터 ×16,384)였다. 그것이 파스칼은 배가된 128KB(32-bit 레지스터 ×32,768)이다. 이는 GPU 연산 코어의 가동 효율에 큰 영향을 미치는 확장이다.

      

블록당 기내 설립 쓰레드 수가 2배로

GPU는 통상의 CPU처럼 쓰레드 당 레지스터 수의 할당은 고정되지 않았다. 드라이버의 컴파일러가 스레드에 물리적인 레지스터 수를 할당한다. NVIDIA GPU의 쓰레드당 최대 레지스터 수는 현재 255다. 그러나 GPU가 갖춘 물리적인 레지스터 수는 정해졌기 때문에 스레드당 레지스터 수와 세울 수 있는 스레드 수에는 트레이드 오프가 생긴다. 구성 쓰레드 수가 늘어나면 1스레드가 사용할 수 있는 레지스터 수가 줄어든다.

 

NVIDIA GPU는 32쓰레드씩 묶은 스레드 배치 "Warp"를 프로세서로 실행 단위로 하고 있다. NVIDIA GPU는 프로세서 클러스터 SM 마다 Warp를 제어하고 있다. SM에서 몇개까지 Warp를 만들 수 있는지는 GPU 아키텍처 세대마다 다르다. 레지스터 자원이 적으면 레지스터 할당의 제약 "레지스터 압박(Register Pressure)"으로 구성될 Warp가 줄고, 스톨이 생긴다.


파스칼은 레지스터 자원을 2배로 늘렸다. 그래서 같은 레지스터 할당의 경우 블록마다 세울 수 있는 쓰레드 수/Warp 수가 배로 증가하였다. Maxwell에서는 4블록으로 구성하는 SM 전체에 세울 수 있는 최대 Warp수는 64에서 쓰레드 수는 2,048이었다. 그것에 비해 절반의 2블록으로 구성하는 파스칼의 SM은 64Warp로 2,048스레드다. 블록당 쓰레드 수/Warp수는 2배가 되었다.

 

GPU는 방대한 스레드의 병렬화로 메모리 레이턴시를 억제하고 있다. 파스칼은 메모리 대역이 3배로 오르면서 경쟁에 의한 메모리 레이턴시의 증대를 억제하고 있다. 또 기내 스레드 수를 배증시킴으로써 레이턴시의 억제를 용이하게 하고 있다. 결과적으로 파스칼 아키텍처에서 SM의 가동률이 매우 향상될 것으로 예상된다.


 

11_s.jpg
3세대 GPU 아키텍처의 SM 구성



파스칼의 SM은 레지스터/스레드 방향 외에도 크게 확장되고 있다. 그 부분은 다음 기사에 리포트 한다.


출처 - http://pc.watch.impress.co.jp/docs/column/kaigai/20160406_751980.html

반응형
Posted by 랩터 인터내셔널

 

 

미국 인텔이 2월에 공개한 증권 보고서(Form 10-K) 내에 동사가 프로세스 사이클을 지금보다 장기화할 것을 천명한 사실이 알려진것이 화제다.

 


인텔은 지금까지 틱톡(TICK TOCK) 모델이라고 불리는 개발 사이클을 채용, 신세대 프로세스로의 이행시에는 우선 TICK 단계에서 앞선 세대의 마이크로 아키텍처를 답습하면서 프로세스를 축소, 그후 1년뒤에는 TOCK 단계로 프로세스 규칙은 그대로지만 마이크로 아키텍처를 개선하는 형태로 2년마다 프로세스를 축소했다.

 

그러나 14nm세대 이후는 이 사이클이 변경된다. 인텔은 2014년 5세대 Core가 된 14nm의 브로드웰 다음 2015년에 14nm로 마이크로 아키텍처를 변경한 6세대 Core 스카이레이크를 투입했다. 그에 이어 7세대 Core 카비레이크는 10nm프로세스를 채용할 것으로 예상됐지만 계속 14nm를 채용하고 스카이레이크 아키텍처를 최적화한 제품이라고 한다. 또한 10nm차세대 제품도 프로세스(Process),아키텍처(Architecture),최적화(Optimization) 3사이클을 채용한다.

 

지금까지 2년마다의 프로세스 축소는 인텔 창업자인 고든 무어가 제시한 무어의 법칙을 동사가 착실하게 수행해 온 것의 표현이기도 했다. 하지만 14나노부터는 기술적 장벽이 크고 최첨단 프로세스 기술을 가진 인텔도 전통적인 계획의 수정이 불가피한 것이다.

 


출처 - http://pc.watch.impress.co.jp/docs/news/20160324_749825.html

반응형
Posted by 랩터 인터내셔널

 

 

Build는 소프트웨어 개발자용 컨퍼런스다. 당연하지만 참가자의 대부분은 소프트웨어 개발자다. Build는 예년, 그 개발자에게 고마움을 잊지 않는 극진한 마이크로소프트의 자세를 엿볼 수 있다.

 

우선 Build 2016 첫날, Windows 10 Anniversary SDK의 프리뷰 버전이 공개됐다. 그 새로운 기능 등에 대한 자세한 내용은 기조 강연에서 소개할 시간을 확보하지 않았다는 이유로 Windows developer 담당 디렉터가 블로그에 상세하게 소개하고 있다.

 

기조 강연의 스테이지에서는 개발 환경에 관련한 새로운 사실이 밝혀졌다.

 


우선 코드 네임 Project Centennial로 불리는 데스크탑 앱의 컨버터로 Desktop App Converter가 소개됐다. 이름은 흡사 Win32 앱을 UWP 애플리케이션으로 변환하는 유틸리티처럼 생각되지만 결코 아니다.

 

이는 단순히 Win32 앱을 Windows 스토어에서 배포할 수 있도록 변환하기 위한 것으로 새로운 설치 기술에 의해 설치나 삭제가 현재의 스토어 앱처럼 깨끗하게 된다. 즉 과거 골칫거리였던 DLL 지옥을 불식하는 셈이다. 또 Win32앱에서 UWP API 접속이 가능하며 시작 메뉴의 라이브 타일과 코타나에 대응할 수 있다.

 


또 커맨드 라인을 사랑하는 개발자 때문에 Bash가 지원된다. 이것 때문에 강연회장에 큰 박수 갈채가 이어졌다. 파트너십 체결로 우분투의 Bash가 윈도우로 오며 이 Bash shell을 윈도우 스토어에서 입수할 수 있다. 스테이지 위에서는 Bash의 프롬프트에 ls 명령을 입력하고 파일 이름 일람, emacs에서 파일을 편집하는 모습이 소개됐다.

 


지난해(2015년) Build 2015에서는 무작정 뭐든지 하려는 마이크로소프트를 상징하듯 iOS나 Android 앱의 다른 플랫폼 간 개발 코드를 공유하는 것 등이 소개됐지만 이들의 역할은 인수된 Xamarin에 맡겨지게 되는 것 같다. 마이크로소프트의 닷넷 환경을 iOS, Android, iOS 위에 실현하는 것이 Xamarin 솔루션이다.

 

또 이 자리에서 비주얼 스튜디오 2015 애니버서리 업데이트가 발표됐다.

 


출처 - http://pc.watch.impress.co.jp/docs/news/event/20160331_750949.html

반응형
Posted by 랩터 인터내셔널

 

마이크로소프트가 오늘 개최한 BUILD 2016 기조 강연에서 지금까지 코드명 레드스톤으로 불린 윈도우10 대형 업데이트를 Anniversary Update(애니버서리 업데이트)로 여름에 발매한다고 공식 발표했습니다.

 


이 업데이트는 OS를 보다 강력하게 만들 뿐 아니라 많은 유저들로부터 보고된 피드백을 적용하고 여러가지 새로운 기능이 탑재되는 대형 업데이트 입니다.

 


또 이 업데이트로 마이크로소프트 엣지 등의 앱에 로그인시 윈도우 헬로를 이용할 수 있게 되고 스타일러스 펜이나 제스처 입력을 대폭 개선, 코타나의 개량 등이 가해질 것으로 알려 졌습니다.

 


애니버서리 업데이트는 윈도우10 사용자에게 무료로 제공 됩니다.

반응형
Posted by 랩터 인터내셔널