'딥러닝'에 해당되는 글 5건

  1. 2018.03.28 NVIDIA 인공지능 딥러닝 추론 가속기 및 TensorRT4 정보 by 랩터 인터내셔널
  2. 2017.08.19 소니, 딥러닝 통합 개발 환경 Neural Network Console 무상 제공 by 랩터 인터내셔널
  3. 2017.05.13 엔비디아 볼타 세대 Tesla V100 투입, DGX/DGX Station 3분기 출하 by 랩터 인터내셔널
  4. 2016.11.18 인공지능 시대의 인텔, 2020년까지 딥러닝 성능을 100배로 by 랩터 인터내셔널
  5. 2016.09.11 GPU 딥러닝 특화 HPE Apollo 6500 시스템 by 랩터 인터내셔널

NVIDIA는 인공지능/딥러닝(심층 학습) 관련 테크놀로지 이벤트 "GTC 2018"을 미국 캘리포니아주 새너제이에 있는 산호세 컨벤션 센터에서 3월 26일~29일 4일간 개최하고 있다.


2일째인 3월 27일에는 CEO 젠슨 황의 기조 강연이 진행됐고 지난해(2017년) GTC에서 발표한 오픈 소스 딥러닝 추론용 엑셀러레이터로 DLA(Deep Learning Accelerator)가 Arm의 Project Trillium에 채용됐다고 밝혔다.


Project Trillium은 Arm이 2018년 2월 발표한 머신러닝/딥러닝용 IP 제품군+소프트웨어 개발 환경이다. Arm의 고객은 다른 Project Trillium IP 제품군과 함께 DLA를 자사 제품에 탑재할 수 있게 된다.


또 NVIDIA는 이 회사의 딥 러닝 추론을 위한 개발 환경인 TensorRT의 최신 버전인 TensorRT 4를 발표했다. NVIDIA의 DLA는 딥 러닝 추론에 특화된 엑셀러레이터이며 자율 주행용으로 발표되면서 이 분기 중에 샘플 출하가 시작될 예정인 Xavier에 채택됐다.


액셀러레이터의 특징은 특정 처리(화상 인식과 음성 인식 등)에 관해 저전력으로 추론을 할 수 있는 것이다. 동영상 재생에서 CPU와 GPU에 내장되어 있는 액셀러레이터 기능을 사용하면 저전력으로 구동되는 것과 같은 이치다.


DLA(타사의 DLA와 구별하기 위한 NVDLA로 불리기도 하지만 본 기사에서는 DLA로 취급)는 오픈 소스로서 그 사양이나 소프트웨어 API 등이 공개되고 있다. 이 때문에 경쟁사도 포함한 사양서를 바탕으로 자사 제품에 실장이 가능하지만 그래도 처음부터 만들 필요가 있기 때문에 나름의 개발 자원을 할애할 필요가 있다.


거기서 NVIDIA는 IP 디자인을 SoC 벤더에 제공하고 있는 Arm과 제휴하고 DLA를 머신러닝/딥러닝 연산 솔루션인 Arm의 Project Trillium의 일부분으로 활용하는 것을 노린다.구체적으로는 Arm이 DLA의 IP를 Arm의 고객인 SoC 벤더 등에 제공한다. 이로써 SoC 벤더는 개발비용을 줄이면서 DLA의 기능을 자사 제품에 탑재할 수 있게 된다.


NVIDIA는 딥러닝 추론을 위한 개발 환경 TensorRT의 최신 버전인 TensorRT 4도 발표했다.

TensorRT는 NVIDIA GPU에 의한 딥러닝 추론을 최적화하는 것으로 INT8, FP16으로 연산할 수 있다. 클라우드 데이터 센터 처리의 70%를 차지하는 화상 인식과 음성 인식 등의 심층 학습 추론을 GPU에서 효율적으로 처리할 수 있다.


이번에 발표된 새 버전에서는 딥러닝 프레임워크에서 가장 인기 있는 TensorFlow 1.7에 TensorRT가 통합되어 TensorFlow를 바탕으로 딥러닝 추론을 이용한 소프트웨어를 개발한 엔지니어가 기존보다 용이하게 NVIDIA의 GPU나 DLA에 최적화할 수 있게 된다. 또한 최적화 후에는 성능이 8배로 올라간다.


또 NVIDIA는 Amazon, Facebook, Microsoft등과 협력하여 Facebook의 ONNX, Microsoft의 WinML또는 Caffe2, Chainer, CNTK, MXMNet, Pytorch등 다른 프레임워크로의 최적화도 추진하겠다고 밝혔다.


그 외에도 SAP, MathWorks 등의 소프트웨어 벤더도 TensorRT를 이용하여 NVIDIA의 GPU/DLA 딥러닝 추론에 최적화를 도모한다.


출처 - https://pc.watch.impress.co.jp/docs/news/event/1113828.html

반응형
Posted by 랩터 인터내셔널



소니가 딥러닝 통합 개발 환경 Neural Network Console의 무상 제공을 시작했다.


딥러닝 프로그램 개발시에는 신경 회로망의 설계가 중요한 부분으로써 프로그램 개발에는 일반적으로 뉴럴 네트워크 구조를 프로그램 코드로 기술, 복수의 함수 블록을 조합하여 구축한다.

 

소니가 새로 개발한 콘솔 소프트웨어는 함수 블록의 개념을 그대로 GUI 개발 환경의 블록으로 표현하는 컴포넌트 형태로 구성, 함수 블록을 자유롭게 배치하여 신경 회로망을 구축할 수 있기 때문에 프로그램 개발 효율을 향상시킬 수 있다.


프로그램은 드래그 앤 드롭으로 네트워크 설계 완료 후에는 버튼 하나로 고속 학습, 학습한 이력의 집중 관리 등 편리한 기능들을 탑재하며 작성된 뉴럴 네트워크를 자동적으로 최적화하는 기능도 갖춘다.

 

소니는 2017년 6월 딥러닝 개발을 위한 코어 라이브러리 Neural Network Libraries를 오픈 소스화하고 콘솔 소프트웨어 공개로 또 다른 딥러닝 관련 활성화를 꾀하고 있다.


뉴럴 네트워크 콘솔 - https://dl.sony.com/

뉴럴 네트워크 라이브러리 - https://nnabla.org/

반응형
Posted by 랩터 인터내셔널
23_s.jpg


미국 NVIDIA는 5월 8일~11일(현지 시간)에 걸쳐 이 회사의 GPU를 이용한 제품을 개발하고 있는 개발자 전용 이벤트 GTC(GPU Technology Conference)2017을 개최했다. 3일째인 5월 10일에는 동사의 창업자 겸 CEO 젠슨・황의 기조 강연이 진행되며 새로운 솔루션 등에 대한 설명이 이루어졌다.


VR 세계에 사용자가 참여할 수 있는 "Project Holodeck"은 9월부터 접근

이제는 트레이드 마크가 되고 있는 가죽 재킷 차림으로 등장한 황씨는 기조 강연을 "무어의 법칙 이후의 세계" 라고 쓰인 슬라이드부터 시작했다.


황씨는 "트랜지스터를 늘리고 성능을 올린다는 접근은 서서히 에너지 효율의 관점에서 한계가 다가오고 있다. 실제로 CPU의 성능은 연 10% 향상으로 정도로 크지 않았다. 그러나 GPU는 연간 50%를 넘어섰다" 며 GPU의 성능 향상이 두드러지기 때문에 과학 연산이나 딥 러닝과 같이 극도의 연산 성능이 필요한 경우에는 CPU에서 GPU의 오프 로드라는 흐름이 정착되고 있다고 지적했다.


02_s.jpg

그래서 GPU를 이용해 범용 연산을 시행하는 CUDA가 보급되었고 다수의 사용자가 이런 혜택을 받고 있다고 밝혔다. 그것에 맞추어 GTC의 참가자나 늘었고 2012년에 비해 참가자 수는 3배가 됐고, GPU 개발자와 CUDA의 다운로드도 늘어하고 있다고 밝혔다.


황씨가 제일 먼저 소개한 "Project Holodeck"은 동사의 IRAY로 렌더링 된 사진 품질의 VR 영상에 사용자의 육체가 스며들어 조작하는 식이다.


시연에서 자동차 3D CAD 데이터를 바탕으로 만들어진 자동차에 사용자가 타거나 주위에서 그 자동차를 보는 모습이 표시됐다. 이렇게 되면 자동차 딜러 등 가족 3명이 VR HMD를 쓰고 같은 VR 자동차에 타고 모습을 확인하는 사용이 가능하게 된다. 발표에 따르면 Project Holodeck은 9월부터 조기 접근이 시작될 예정.


또 레이 트레이싱(빛과 그림자를 실제 물리 세계와 마찬가지로 렌더링하는 방식)으로 딥 러닝에 의한 AI(인공지능)을 이용하여 보다 사실적인 빛과 그림자 등을 표시한다는 시연도 이어졌다.


12_s.jpg

파스칼 보다 더 딥 러닝에 최적화된 볼타를 채용한 "Tesla V100"

이어 현재의 NVIDIA가 주력하고 있는 딥 러닝 기법을 활용한 AI 이야기로 이어졌다. 황씨는 "딥 러닝을 배우는 학생이 늘어나는 등 딥 러닝이 주목되고 있다. 딥 러닝은 컴퓨팅을 자유롭게하여 이제 누구나 자신의 데이터를 갖고 컴퓨터를 단련할 수 있다" 며 딥 러닝을 활용한 AI가 보급됨으로써 새로운 컴퓨터 형태가 가능하다고 한다.


17_s.jpg


황씨는 "NVIDIA는 하드웨어 뿐 아니라 소프트웨어 SDK도 포함하여 제공하고 있다. 어떠한 딥 러닝 체제도 지원하여 높은 성능을 발휘한다" 며 NVIDIA의 GPU가 딥 러닝 각종 소프트웨어를 개발하는데 최고의 플랫폼으로 규정했다.


그 구체적인 예로서 독일의 기업용 업무 시스템을 제공하고 있는 SAP과의 제휴를 언급하며 SAP이 엔터프라이즈용으로 제공하고 있는 AI가 엔비디아의 DGX-1에서 실현되고 있는 것 등을 소개했다.


그리고 딥 러닝을 이용한 AI를 실현하기엔 아직 처리 능력이 모자르다며 동사의 새로운 제품으로 "Tesla V100"을 발표했다.


Tesla V100은 동사가 개발 코드 네임 "볼타(Volta)"라고 불러온 차세대 아키텍처로 5120기의 CUDA 코어를 탑재하고 있다. 20MB의 SM RF, 16MB의 캐시, 심지어 16GB의 HBM2 메모리를 인터포저에 탑재하고 있어 메모리 대역폭은 900GB/s에 이른다.


또한 2세대 NVLink를 탑재하고 있어 대역폭은 300GB/s를 실현, TSMC의 12nm 프로세스에서 제조되어 다이 사이즈는 815평방mm로 애플워치와 비슷한 면적이라고 한다. 발표에 따르면 FP64로 7.5TFLOPS, FP32에서 15TFLOPS의 연산 성능을 갖추고 있다고 한다.


22_s.jpg
24_s.jpg


또 황씨는 "Tesla V100은 새로운 CUDA TensorOp 명령어 집합과 데이터 포맷에 대응하고 있다. 그로 인해 딥 러닝에 최적화되고 있다" 며 볼타가 파스칼 세대보다 딥 러닝에 더 최적화되어 있다고 밝혔다. 그러한 최적화로 파스칼 세대와 비교해 범용 FLOPS에서는 1.5배, 딥 러닝 학습 목적의 Tensor FLOPS에서 12배, 딥 러닝 추론을 위한 Tensor FLOPS에서 6배가 되고 있다고 밝혔다.


25_s.jpg
26_s.jpg


그 뒤 스퀘어 에닉스가 작성한 Final Fantasy XV의 시연과 시뮬레이션 등을 공개했다.


27_s.jpg

가격은 그대로 무료 업그레이드도 제공되는 볼타 버전 DGX-1

그 뒤 황씨는 Tesla V100을 이용한 NVIDIA 서버 어플라이언스 제품군에 대해 설명했다. 지난해(2016년) GTC에서 Pascal 베이스의 Tesla P100을 8개 탑재한 HPC로 주목 받은 "DGX-1"이 소개됐고 그 제품의 볼타 버전이 되는 "DGX-1 with Tesla V100"을 소개했다.


35_s.jpg


이는 DGX-1에 탑재된 8개의 Tesla P100을 8개의 Tesla V100으로 대체한 제품이다. 그래서 기본적 사양은 같고 "DGX-1 with Tesla V100은 이미 예약을 시작했다. 앞으로 주문한 사용자에게는 Pascal 기반의 제품을 보내며 볼타가 공급되는 대로 Tesla V100 버전으로 무상 업그레이드" 가 된다고 밝혔다. 볼타 기반의 제품은 3분기 이후에 공급이 이뤄질 전망이다.


그리고 신모델로 "DGX STATION"을 발표했다. DGX STATION은 저렴한 DGX 라는 위치 설정으로 DGX-1 with Tesla V100에 8개의 Tesla V100이 장착된 것에 비해 이쪽은 4개가 탑재되며 최대 1500W의 전력으로 움직이고 수냉 방식으로 냉각된다고 한다.


황씨는 "스타트 업이나 개인 프로그래머용 DGX" 라고 표현했지만 가격은 69000달러로 DGX-1의 절반 이하라고는 하지만 개인적으로 사기에는 상당히 어렵다. 이쪽도 3분기의 출하가 예정되고 있다. 또한 클라우드용 HGX-1의 Tesla V100 버전이 되는 HGX-1 with Tesla V100도 함께 발표되고 있다.


또 PCI Express 카드 형식의 보드도 발표하여"FHHL(Full Height, Half-Length, 높이는 풀 사이즈지만 카드의 길이는 하프 사이즈)" 형식의 보드로 제공된다. 황씨는 "딥 러닝의 추론을 Tesla V100으로 하면 앞으로 인텔이 출시 할 Skylake(2S용 Skylake-EP를 가리키고 있다고 생각)과 비교하고 15~25배가 된다" 며 딥 러닝 추론에 최적이라고 밝혔다.


41_s.jpg

황씨는 "우리는 소프트웨어 개발자에게 각종 SDK를 제공하고 있는데 취급이 어렵다는 개발자도 적지 않다. 거기서 NVDocker라는 컨테이너화 된 형식으로 클릭하면 쉽게 개발로 들어가도록 한다" 며 Docker로 개발 환경을 제공해 딥 러닝을 이용한 AI 소프트웨어 개발을 더 용이하게 할 것이라고 설명했다.


44_s.jpg

도요타에 자율 주행 솔루션을 제공하며 Xavier에는 DLA가 탑재

마지막 파트에서 황씨는 에지측(클라우드에 대한 클라이언트 측)의 AI에 대해서도 언급했다. 지금까지 주로 AI라고 하면 클라우드 측의 학습이나 추론이 주된 화제였지만 점차 에지 측의 AI에도 관심이 쏠리고 있다.


그 중에서도 자율 주행 솔루션에 관심이 높아지고 있어 이미 아우디, 메르세데스 벤츠에서 채용이 정해진 NVIDIA의 자율 주행 솔루션은 반도체 제조 업체만이 아닌 자동차 회사에서도 크게 주목되고 있는 존재다.


NVIDIA의 DRIVE PX는 자율 주행을 실현하는 컴퓨팅 보드로 개발 코드 네임 "Parker" 라는 Pascal 세대의 GPU를 채용한 제품이 회사에 출하되고 있다. NVIDIA가 그 Parker의 후계로 계획하고 있는 것이 "Xavier(자비어)" 로 지난해 유럽에서 열린 GTC에서 발표된 제품이다.


이번에 황씨는 그 Xavier의 새로운 정보로서 "Xavier에는 DLA라는 액셀러레이터를 탑재하고 있다. 이것은 화상 인식에 특화된 액셀러레이터다" 라고 밝혔다. 자율 주행 차량의 경우 자동차에 탑재된 카메라를 이용해 화상 인식으로 주위의 물체 등을 항상 판별할 필요가 있다.


50_s.jpg

현재는 인텔이 인수한 Mobileye 사가 제공하는 카메라 모듈과 같이 카메라와 화상 인식을 하는 전용 반도체가 한 세트로 되어 있지만 장기적으로는 그것이 SoC화 된 CPU나 GPU 가 될 것으로 생각되고 있다.


화상 인식을 하려면 딥 러닝 추론을 SoC의 GPU에서 하지 않으며 안되는데 그 경우 소비 전력이 커져 다른 AI적인 처리에 성능이 부족해 버릴 가능성이 있다. 이 때문에 DLA 같은 전용 액셀러레이터를 탑재해 딥 러닝 추론을 한다는 것은 소비 전력을 억제하는 관점에서도 성능 관점에서도 의미가 있다.


또 황씨는 GTC에서 주목되는 발표를 했다. 그것은 일본 최대 자동차 업체로 글로벌에서 독일의 VW 그룹과 항상 1위 자리를 다투고 있는 도요타 자동차와의 제휴다. 황씨는 "도요타 자동차가 DRIVE PX를 채용해 향후 수년 내에 자율 주행 자동차를 개발한다" 고 밝히자 회장에서는 깨질 듯한 큰 박수가 터졌다.


54_s.jpg


마지막으로 황씨는 로봇으로 화제를 옮겨 "ISAAC" 이라는 로봇의 학습 시뮬레이션을 소개했다. 로봇의 학습, 로봇 AI가 동작을 기억하는 학습 과정을 시뮬레이션한 것으로 이를 이용해 학습을 하고 그 데이터를 로봇으로 옮기면 개발 시간을 단축할 수 있다고 소개했다.


출처 - http://pc.watch.impress.co.jp/docs/news/1059012.html

반응형
Posted by 랩터 인터내셔널

인텔은 미국 샌프란시스코 시내에서 AI(인공지능) 전략에 관한 기자 회견 "Intel AI Day"를 갖고 머신 러닝, 딥-러닝 등의 새로운 컴퓨팅 모델을 활용해 AI를 실현하는 반도체, 소프트웨어에 관한 발표를 진행했다.


인텔이 IA 전용 솔루션에 주력한다. 앞으로 제품 확충

기자 회견 모두 발언에서 인사에 선 Intel CEO의 브라이언 크르자니크는 "현재 수십 억의 스마트 기기가 인터넷에 접속되고 있으며 앞으로도 증가한다. AI는 그러한 스마트 커넥티비티 디바이스에 있어서 매우 중요한 기술이다. 인텔은 그런 AI를 위한 완전한 솔루션을 한방에 제공하고 있으며 향후 이를 확대한다" 며 다양한 차원에서 AI용 반도체와 소프트웨어 등을 제공하고 IoT 기기용 반도체(Atom 프로세서 등), 5G를 위한 통신 솔루션, 클라우드 측에서 머신-러닝이나 딥-러닝에 이용되는 반도체(Xeon, Xeon Phi 등)의 클라이언트, 통신 서버 등 IoT 생태계 전체에 반도체를 제공할 수 있는 것이 강점이라고 강조했다.


03.jpg



AI용 반도체 하면 일반적으로는 딥 러닝용 연산 등에 이용되고 있는 GPU 등의 범용 프로세서가 잘 알려져 있지만 실제로는 딥-러닝은 머신 러닝의 한가지 방법이며 CPU를 이용한 머신 러닝도 비슷하게 중요한 요소다. CPU, 특히 클라우드 서버는 사실상 IA(Intel Architecture, 이른바 x86) 중 택일로 머신 러닝이라는 큰 매듭으로 보면 인텔은 머신 러닝 시장에서 강한 존재감을 갖고 있다.

크르자니크는 "딥 러닝은 물론 중요하지만 스몰 세트다. AI는 확장성이 있는 것으로 GPU 만이 성능을 결정하는 것이 아니다" 며 인텔 아키텍처의 AI 중요성을 강조하면서 향후 인텔이 지금보다 강한 AI를 약속하겠다고 강조했다. 크르자니크는 지난 1년간 Saffron Technology, Movidius, Nervana Systems 등의 AI 관련 기술을 가진 기업을 인수하면서 AI 관련 포트폴리오를 늘려 왔다고 밝혔다.

05.jpg


그 위에서 Nervana System CEO를 무대로 부르며 인텔과 Nervana의 향후 전략에 대해서 설명했다. 이 가운데 크르자니크는 Nervana의 자산과 인텔의 기존 자산을 통합하고 앞으로 AI용 반도체와 소프트웨어 등의 플랫폼을 "Intel Nervana platform"으로 전개하겠다고 밝혔다.


09.jpg


크르자니크는 "중요한 것은 신뢰성이다. 인텔은 신뢰성 높은 AI 플랫폼을 향후로도 제공한다" 며 향후 인텔이 AI를 중요한 비즈니스의 하나로 파악하여 힘을 넣겠다는 방향성을 강조했다.

2020년까지 현재보다 100배 웃도는 딥 러닝 솔루션 투입

크르자니크에 이어 등단한 것은 인텔의 다이앤 브라이언트. 그는 "2020년에는 AI에 필요한 컴퓨팅 파워는 지금보다 12배로 확대할 것으로 예상된다" 며 AI에 필요한 연산 능력이 늘어나기 때문에 이에 대처할 필요가 있다고 밝혔다.



11.jpg


여기서 인텔의 새로운 AI를 위한 전략 중 하나로 구글과의 협업에 대해서 발표했다. Google은 AlphaGo와 DeepMind 같은 AI을 개발하고 딥 러닝 프레임워크에서 톱 쉐어 TensorFlow를 제공하는 등 AI 세계에서 선두를 달리고 있다. 브라이언트가 불러 등단한 구글의 엔터프라이즈 담당 수석 부사장 다이앤 그린은 "인텔은 그 동안 서버 개발 등에 협력했지만 차세대 개발도 함께 한다. TensorFlow를 IA에 최적화 하고 딥 러닝 학습 등에 대해서도 최적화한다. 또 IoT 보안 확보에서도 협업하겠다" 며 인텔과 AI 개발 환경의 확충 등에서 협력하겠다고 밝혔다.


16.jpg



그는 "2016년 마지막 시점으로 예측하면 94%의 AI 서버가 GPU가 없는 IA 서버다. 앞으로도 AI용 IA 솔루션을 점차 강화하고 싶다"며 인텔이 제공하고 있는 IA용 반도체 제품을 향후로도 적극적으로 확충할 것이라고 밝혔다. 그런 AI용 인텔의 제품으로 그는 Xeon E5, Xeon Phi, Xeon+FPGA, 또 이번에 새로 발표된 딥 러닝용 액셀러레이터 4가지를 꼽았다.


13.jpg


Xeon E5 등 Xeon프로세서는 현재 데이터 센터에서 이용되는 클라우드 서버의 대다수에서 채용되고 있는 CPU다. 그는 그 Xeon E5의 차세대 버전으로 계획하고 있는 "Skylake-EP"를 언급하면서 초기 개발 버전의 출하를 시작했다고 밝혔다. AVX512 등의 새로운 명령 세트, 부동 소수점 연산 기능의 확장 등으로 성능이 향상됐으며 Apache Spark를 이용하면 성능은 18배나 된다고 한다. 또한 제품 버전은 2017년 중반 출하를 상정하고 있다고 설명했다.


17.jpg


Xeon Phi에 대해서는 올해(2016년) 발표한 나이츠 랜딩(Knights Landing)을 설명하며 "Knights Landing으로 현 시점에서 최대 32노드까지 연결이 가능해 학습 성능은 31배나 된다. 또, 메모리는 GPU에 16GB까지 밖에 이용할 수 없지만 Knights Landing은 최대 400GB까지 이용할 수 있다" 며 GPU에 비해 스케일 아웃으로 불리는 복수의 노드를 연결하여 병렬로 실행함으로써 더 높은 성능을 실현할 수 있다고 강조했다. 또 8월에 열린 IDF에서 발표한 차세대 제품인 나이츠 밀(Knights Mill)에 대해서도 설명하며 배정밀도, 단정밀도에 반정밀도 부동 소수점 연산 지원 등으로 현행 Kights Landing에 비해 4배의 딥 러닝 성능을 실현하겠다고 강조했다.


18.jpg


이어 그는 인텔이 인수한 Nervana가 개발한 딥 러닝용 엑셀러레이터 칩으로 "LAKE CREST"(개발 코드 네임)을 발표하면서 2017년 상반기에 투입하겠다고 밝혔다. Xeon 프로세서에 그 딥 러닝용 액셀러레이터 칩을 통합한 "Knights Crest"(나이츠 크레스트, 개발 코드 네임) 계획도 밝혔다(투입 시기는 발표가 없었다). 그는 "인텔은 딥 러닝에 걸리는 시간을 현재 가장 빠른 GPU와 비교해 100분의 1로 가능하게 하는 솔루션을 제공한다" 며 인텔이 지금까지 딥 러닝에서 최고라고 불리는 엔비디아 GPU에 대한 도전장을 내밀었다.


출처 - http://pc.watch.impress.co.jp/docs/news/1030714.html

반응형
Posted by 랩터 인터내셔널

HPE Apollo 6500 시스템은 딥러닝에 특화된 시스템으로 2노드 ProLiant XL270d Gen9 서버와 전원 모듈을 수용. ProLiant XL27d 서버 1노드당 GPU를 최대 8기, 인텔 Xeon E5-2600 패밀리 CPU를 최대 2기, DDR4 메모리를 최대 1TB 탑재할 수 있는 구조.


대응 GPU는 NVIDIA Tesla M40/K80/K40, NVIDIA Pascal GPU, Intel Xeon Phi(Knight Landing), AMD FirePro S9150 등


 




 

Item

Description

1

HPE Apollo 6500 Chassis (4U)

2

Low profile PCIe Gen3 x16 slot

3

Embedded 1Gb NIC 2

4

Embedded 1Gb NIC 1

5

Dedicated iLO Port (Optional) Low profile PCIe Gen3 x16 slot

6

Unit Identification (UID) LED/button

7

Server serial label pull tab

8

Power Button

9

USB 3.0 Connector

10

SUV(Serial/USB/Video) Connector

11

Low profile PCIe Gen3 x16 slot

12

8 SFF SAS/SATA Drive Bays

13

HPE ProLiant XL270d Accelerator Trays (2U/tray)







새로운 기능

  • 2U 노드당 56테라플롭스의 단일 정밀도 성능으로 보다 빠른 문제 해결.
  • 각 워크로드에 맞도록 최적화할 수 있는 가속기 구성.
  • 2개의 PCIe Gen3 x16 슬롯 간 보다 빠른 통신이 가능하여 원하는 고속 패브릭을 사용할 수 있습니다.

특징

가장 까다로운 고성능 컴퓨팅 워크로드를 위한 유연한 구성

HPE Apollo 6500 시스템은 최대 8개의 300W GPU 또는 코프로세서를 지원하여 향상된 성능을 제공합니다.

가속기에 고도의 피어 투 피어 통신을 위해 최적화된 워크로드의 경우, 하나의 고속 PCIe 스위치에 4개의 GPU를 장착하고, 총 8개의 CPU에 대해 하나의 CPU당 2개의 뱅크를 장착합니다.

CPU-GPU 간 고도의 통신이 필요한 경우, CPU당 4개의 GPU 구성을 선택하십시오.

HPE ProLiant XL270d Gen9 서버는 업계 표준의 Intel® Xeon® E5-2600 v4 프로세서, 12G SAS 및 최대 1024GB DDR4 2400MHz 메모리를 갖추고 최고의 성능을 자랑하는 SSD(솔리드 스테이트 드라이브)를 지원합니다.

HPE ProLiant XL270d Gen9 서버 하나당 최대 16개의 HPE DDR4 2400MHz 메모리 모듈로 데이터 집약적인 애플리케이션 워크로드에서 더 빠른 성능을 보입니다.

가속기 노드 간 고도의 대역폭, 낮은 지연 시간 네트워킹

HPE Apollo 6500 시스템은 사용자가 원하는 고속 패브릭을 지원하기 위해 두 개의 로우 프로파일 PCIe Gen3 x16 슬롯을 포함합니다.

8:1 GPU-CPU 토폴로지에서는 네트워킹이 GPU의 PCIe Gen3 패브릭에 직접 연결되어 GPU 노드 간 지연 시간이 줄어듭니다.

HPE InfiniBand 어댑터 하나당 4개의 (4) GPU로 GPUDirect를 지원합니다.


반응형
Posted by 랩터 인터내셔널