중국 Baidu는 3일(현지시간) Baidu Create 2018에서 최초의 심층 학습 전용 프로세서(AI 액셀러레이터) 쿤룬(Kunlun)을 발표했다.


쿤룬은 훈련 처리용 "818-300"과 추론 처리용 "818-100" 2종류가 준비되며 클라우드와 에지 양쪽 심층 학습 솔루션에 적응할 수 있다. 성능과 비용을 양립할 수 있으며 PaddlePaddle 같은 심층 학습 프레임워크를 지원한다.


바이두는 2011년부터 FPGA 기반의 AI 액셀러레이터 개발에 임해 왔다. 이번에 개발한 쿤룬은 수천개의 작은 코어를 내포하여 260TOPS의 처리 속도를 100W로 실현하고 FPGA 기반의 액셀러레이터보다 30배 고속이라고 밝혔다. 512GB/s 메모리 대역폭을 갖추며 삼성의 14nm 공정으로 제조된다.


출처 - https://pc.watch.impress.co.jp/docs/news/1131105.html

반응형
Posted by 랩터 인터내셔널
008_l.jpg


인텔이 인공지능 관련 행사 "AIDC(AI DevCon)"를 개최하고 회사의 AI 프로세서에 관한 새 전략을 설명했다. 그 발표 내용은 이미 뉴스 기사로 전했는데 본 기사에서는 이들의 발표가 향후의 기계 학습(머신 러닝)/심층 학습(딥 러닝) 프로세서 시장에 어떠한 영향을 미칠지에 대해 살펴본다.


이번 발표에서 주목되는 것은 현재는 테스트 출하에 머물고 있는 "Lake Crest"의 후계에 해당하는 "Spring Crest"가 2019년 말까지 상용 출시되는 것, FPGA, Movidius VPU(Vision Processing Unit) 등 하드웨어의 최적화를 자동으로 처리하는 컴파일러 "nGRAPH" 2가지.



NVIDIA의 GPU+CUDA가 심층 학습에서 독주 체제

이제 IT 업계에서는 "AI"가 가장 중요한 기술이다. 기계 학습/심층 학습 기법을 활용한 AI는 스마트폰, PC 등의 클라이언트 기기에 있어서도 중요한 기술이 되고 있다.


예를 들어 Windows 10에 탑재되고 있는 "Cortana", iOS 디바이스에 탑재되고 있는 "Siri" 등의 AI 보조 기능은 클라이언트 측에서 음성을 기록하고 클라우드로 보내며 클라우드 측은 기계 학습/심층 학습의 추론 기능을 이용하여 음성 인식, 그것에 입각한 데이터를 분석하고, 순식간에 클라이언트 장치로 결과를 보내게 된다.


이러한 기계 학습/심층 학습을 이용한 AI는 인텔과 엔비디아가 제공하고 있는 프로세서를 이용하여 연산되고 있다. 그것들이 이용되고 있는 연산 종류를 나누면 크게 3개로 나뉜다.


1. 클라우드 서버에서 기계 학습/심층 학습
2. 클라우드 서버에서 기계 학습/심층 학습 추론
3. 엣지 디바이스(클라이언트 측)기계 학습/심층 학습 추론


학습이란 것은 인간의 뇌를 본뜬 DNN(Deep Neural Network) 등에서 데이터를 읽고, 그 답을 주거나 하는 말 그대로 학습시키는 프로세스다. 유아에게 개를 개, 고양이를 고양이라고 가르치는 것처럼 AI에게 개를 개, 고양이를 고양이로 주입하는 프로세스라고 생각하면 쉽다.


인간도 양질의 서적을 읽으면 지식이 비약적으로 늘고 더 현명해지듯이 DNN에도 양질의 데이터를 가져오는 만큼 현명해져 많은 AI 개발자가 이 학습 과정에 코스트와 시간을 보내고 있다.


추론이라는 것은 학습을 마친 DNN 등을 이용하여 이동해 온 데이터가 개인가, 고양이인가를 판단하는 프로세스다. 이 추론은 클라우드 서버상에서 진행되는 것도 있으며 클라이언트 디바이스 측에서 진행되는 것도 있다.


이 중 지금까지 기계 학습/심층 학습을 처리하는 반도체에서 초점을 맞춰 온 것은 주로 클라우드 서버의 학습에 이용하는 프로세서다. 그 시장에서 압도적인 리더로 여겨지는 것은 NVIDIA로 Tesla GPU와 프로그래밍 모델 CUDA의 조합은 그 높은 성능으로 지지를 받고 있다.


특히 NVIDIA는 NVSwitch로 불리는 NVLink를 스위칭하는 컨트롤러를 12개 도입함으로써 16 GPU를 하나의 GPU로 다룰 수 있는 "DGX-2"을 발표했으며 심층 학습의 학습 시간이 병목이 됐던 AI 개발자를 열광시키고 있다.



001_l.jpg
002_l.jpg
003_l.jpg


인텔은 "원 사이즈 피츠 올"이 아닌 복수의 선택 사항을 제공하는 전략

NVIDIA의 뒤를 쫓는 인텔도 기계 학습/심층 학습에서 주요 벤더 중 하나다. 왜냐하면 NVIDIA의 GPU는 독립적으로는 움직이지 않고 반드시 CPU가 필요하기 때문이다. 그 CPU는 예외 없이 인텔의 Xeon이 사용되고 있으며 NVIDIA의 점유율=인텔의 점유율이다.


또 NVIDIA의 GPU가 사용되지 않은 서버에서 기계 학습/심층 학습이 진행되는 사례도 다수 있다. 너무 큰 데이터가 없는 경우에는 GPU를 쓰지 않고도 충분히 학습할 수 있어 CPU 만으로 성능이 충분한 경우가 많기 때문이다. 그러한 니즈를 대상으로 인텔은 개발 툴을 확충하여 "Math Kernel Library-Deep Neural Network(MKL-DNN)" 등을 제공한다.


이번에 열린 AIDC에서는 Google이 제공하는 프레임워크 "TensorFlow"와 MKL-DNN을 이용하여 Xeon의 최적화를 추진한 결과 추론시 성능이 CPU 노드 스케일링보다 높은 성능으로 실현할 수 있다고 설명했다.



004_l.jpg


하지만 인텔의 기계 학습/심층 학습 솔루션은 Xeon 만이 아니다. AIDC의 기조 강연에 등단한 인텔의 이사 겸 AI 제품 사업 본부장은 "앞으로 기계 학습/심층 학습은 원 사이즈 피츠 올은 아니다" 라고 몇번이나 밝히며 기계 학습/심층 학습용 프로세서의 요구가 다양해지고, GPU 에만 의존하는 시대는 곧 끝난다고 강조했다. 또 동시에 "추론의 처리는 계속 늘어 추론에 적합한 요구가 높아지고 있다" 고 설명하며 향후 추론에 최적인 프로세서의 요구가 강해진다고 어필했다.


그 말처럼 인텔은 기계 학습/심층 학습용 프로세서의 다양화를 추진하고 있다. MKL-DNN의 버전업 등에 의한 Xeon 성능을 올리는 것은 물론 인텔이 2015년에 Altera를 인수하고 얻은 FPGA 제품을 강화하고 있으며 일전에는 Xeon에 FPGA를 CPU 모듈상에 통합한 제품을 내놓았다.


Microsoft가 퍼블릭 클라우드로 제공하는 Azure의 새로운 서비스로서 FPGA를 이용한 추론 엔진을 제공하기 시작했고, 2016년 9월 인수한 Movidius 추론 프로세서를 에지 측의 추론에 활용하는 다양한 움직임을 보이고 있다. Movidius는 에지 측의 추론에 특화된 프로세서로(Intel에서는 VPU=Vision Processing Unit 이라고 부른다) 추론을 불과 1W 이하로 처리하는 제품이다.


이미 AI 카메라나 드론, USB 스틱 등에 "Myraid 2(100GFLOPS/6카메라/28nm)" 라는 제품이 채용됐고, 향후 지난해(2017년) 8월에 발표된 "Myraid X(1TFLOPS/4TOPs/8카메라/16nm)" 라는 차세대 제품을 탑재한 최종 제품이 시장에 나올 예정이다.



005_l.jpg
006_l.jpg
007_l.jpg


Nervana가 개발한 Lake Crest, 그리고 그 후계 Spring Crest로 GPU에 대항

그리고 NVIDIA의 강점이 되고 있는 GPU를 이용한 심층 학습 솔루션에 대항하는 제품이 NNP(Neural Network Processors). 그 최초의 제품이 "Lake Crest"(개발 코드 네임), 그 후계 제품이 "Spring Crest"


009_l.jpg


Lake Crest은 인텔이 AIDC 전신 행사인 "Intel AI Day" 에서 처음 구상을 공개한 제품으로 Intel이 인수한 Nervana가 개발한 심층 학습에 특화된 프로세서다.


Lake Crest는 12개의 Tensor 기반 프로세서 클러스터를 내장하고 있으며 로컬 메모리로 12GB의 HBM2를 탑재하고 있다. 또 NNP 간 접속하는 인터 커넥트 대역으로 2.4TB/s의 대역폭이 확보되어 있으며 여러개의 칩을 접속하여 연산에 이용할 수 있다.


중요한 것은 Crest 시리즈는 액셀러레이터처럼 기능이 고정된 것이 아니라 GPU와 CPU와 같이 프로그래머블로 프로그래머가 소프트웨어를 작성해 효율적인 심층 학습을 할 수 있다는 점이다.


예를 들어 FP16, FP32 같은 각종 부동 소수점 연산, 또 INT8 등의 추론에서 흔히 쓰이는 정수 연산까지 임의의 프로그램을 구축할 수 있다. 또한 행렬 곱셈(GEMM:General Matrix Multiply) 경우의 효율은 GPU보다 높다고 기조 강연에서 밝히며 이론치의 96.4%의 성능을 실현할 수 있다고 설명했다.


현재 Lake Crest는 특정 고객에 대해 테스트 출하했고, 소프트웨어 개발을 공동으로 진행하고 있다. 대규모 상용 제공은 2019년 말까지 출하가 예정됐고, 그럼 Lake Crest의 후계인 Spring Crest는 어떤 제품일까?


미국 인텔 집행 임원겸 AI 제품 사업 본부 AI 하드웨어 사업부장은 "Lake Crest는 낡은 프로세스 노드를 사용하고 있다. 최초의 실리콘에 위험이 있는 프로세스 노드를 이용하는 것을 피하고 싶었기 때문이다. 그것을 최신의 프로세스 노드로 삼을 뿐 주파수를 올리거나 하는 것에 의한 성능 향상이 가능하다"고 밝혔다.


구체적으로 어떤 프로세스로 제조한다는 언급은 피했지만 Spring Crest가 Lake Crest보다 훨씬 앞선 프로세스 노드고, 성능이 향상되고 있다고 설명했다. 인텔은 이번 AIDC에서 Spring Crest는 Lake Crest와 비교해 3~4배의 학습 성능을 실현한다고 설명했다.


그렇게 되면 NVIDIA의 GPU에 대한 무기로는 Spring Crest가 있지만 과제도 있다. 그 필두는 투입 시기가 19년 말로 1년 반 만에 되는 것이다. "이같이 되는 이유는 실리콘을 체인지 했기 때문이다" (인텔) 성능을 높이기 위해 원래의 로드맵 제품에서 Spring Crest로 변경했기 때문이라고 밝혔다.


인텔은 2016년 Intel AI Day 타이밍에 Lake Crest의 후계로 Knights Crest을 2018년 투입키로 했으나 Knights Crest 계획은 파기되고 대신 Spring Crest가 로드맵 상에 등장한 배경이 있다.

그 사이 NVIDIA가 멈추는 것은 아니기 때문에 Spring Crest가 출시하는 단계에서 NVIDIA가 얼마나 성능을 올릴지에 따라 Spring Crest의 매력이 없을 가능성도 있기 때문에 그것은 리스크라고 할 수 있다.



여러 종류의 프로세서가 있는 상황을 새 컴파일러 nGRAPH로 커버

그리고 이번에 인텔은 기계 학습/심층 학습용 프로세서의 약점이 됐던 부분을 극복하는 시스템을 도입한다고 발표했다.


이미 말한 대로 AIDC에서 인텔의 간부는 한창 "기계 학습/심층 학습용 프로세서는 원 사이즈 피츠 올은 아니다"라는 말을 되풀이했다. GPU+CUDA의 하나의 아키텍처로 추론부터 클라우드 서버 측의 학습까지 커버하는 NVIDIA를 의식한 표현으로 보인다. 표로 만들면 아래와 같다.



NVIDIAIntel
제품아키텍처제품아키텍처제품아키텍처
클라우드 서버에서 기계 학습/심층 학습TeslaCUDAXeonx86Lake CrestTensor 코어
클라우드 서버에서 기계 학습/심층 학습 추론TeslaCUDAXeonx86FPGAAltera
에지 디바이스 기계 학습/심층 학습 추론TegraCUDAMyraid 2/XMovidius


NVIDIA는 하나의 CUDA 프로그래밍 모델에서 어떤 GPU도 같은 소프트웨어를 가동시킬 수 있다.(실제로는 재 컴파일이 필요한 경우도 있다) AI를 개발하는 엔지니어들은 CUDA만 공부하면 에지 측의 추론은 Tegra, 클라우드 추론과 학습은 Tesla로 하드웨어는 달라도 같은 CUDA 프로그램으로 만들기 쉽다.


그것에 비하면 인텔은 하드웨어의 차이를 AI를 개발하는 엔지니어가 의식해야 한다. Xeon을 이용해서 클라우드 추론과 학습을 진행하면 Xeon에 최적화를 하고, FPGA를 이용해서 클라우드에서 추론을 하면 FPGA에 맞추어 최적화를, Movidius를 이용하는 경우에는 Movidius에 최적화 할 필요가 있어 파편화되고 있다.


앞으로 이에 Lake Crest/Spring Crest가 추가되므로 또 AI 엔지니어가 학습 할 것이 늘어난다.이것이 그동안 AI를 인텔 플랫폼 상에서 연산할 때의 약점이였다. 거기서 인텔이 새로 도입하는 것이 nGRAPH다. nGRAPH는 말하자면 컴파일러의 일종으로 TensorFlow 등의 심층 학습 프레임 워크와 함께 사용해 Lake Crest, FPGA, Movidius 등 각각의 하드웨어에 최적화 된 코드를 자동으로 생성한다.


인텔에 따르면 CPU(Xeon)에 관해서는 계속 MKL-DNN을 이용해 최적화할 필요가 있지만 "nGRAPH를 이용하면 AI 엔지니어는 하드웨어의 차이를 인식할 필요가 사라진다. AI 엔지니어에게 그런 차이를 이해하는 것은 시간 낭비일 뿐, 그것을 쉽게 할 수 있는 도구가 필요했다 " 는 말과 같이 컴파일러 차원에서 하드웨어를 추상화하기 때문에 AI 엔지니어는 그것을 이해하지 않아도 컴파일러에 집중할 수 있다는 게 장점이다.


이에 따라 여러 종류의 프로세서가 있다는 약점을 덮는 것이 가능하고, AI 엔지니어에게 복수의 하드웨어를 사용해 보다 효율적인 학습과 추론을 행하는 것이 가능하게 된다. 인텔의 기계 학습/심층 학습 솔루션에 있어서 마지막 피스가 nGRAPH 이며, 그것이 갖추어 졌을때는 현 시점에서 심층 학습 세계의 절대 제왕인 NVIDIA도 심각한 위협이 되지 않을까,


보도 - https://pc.watch.impress.co.jp/docs/column/ubiq/1124703.html

반응형
Posted by 랩터 인터내셔널


HPE는 딥 러닝 처리에 최적화 된 x86 서버 신제품으로 HPE Apollo 6500 Gen10 System을 발매했다.


신제품은 4U/1노드 구성에 NVIDIA Tesla V100 등의 GPU를 최대 8개 탑재하여 300GB/s 고속의 CPU-GPU BUS NVLink 2.0(SXM-2)에도 대응한다. 기업들의 인공지능 도입과 데이터 분석을 지원하는 컨설팅 및 훈련, 엔터프라이즈 수준의 지원 서비스 등도 제공하여 기업의 AI 비지니스 도입을 촉진한다.

 

Apollo 6500 Gen10은 엔비디아의 Teslta V100/P100/P40 또는 AMD의 Radeon Insitinct MI25를 최대 8기 탑재할 수 있다. CPU-GPU 간의 버스 접속은 NVLink와 PCIe x8 2종류를 지원하고 PCIe 접속의 경우 1CPU에 대한 4개(4:1) 또는 8개(8:1) GPU를 접속할 수 있다. NVLink를 이용함으로써 기존 모델(PCIe)보다 약 3배의 산출량을 실현했고, PCIe 접속의 4:1/8:1의 접속 토폴로지 전환을 물리적 변경 필요없이 BIOS 설정으로만 가능한 점도 특징이다.

 

또 Apollo 6500 Gen10의 메인보드는 ProLiant DL380 Gen10 서버와 동일한 사양으로 CPU는 최대 28코어/3.0GHz/165W의 Xeon Scalable Processors(Xeon-SP), 메모리는 2666MT/s DDR4 × 24(최대 3TB), 스토리지는 최대 SAS/SATASSD × 16 또는 NVMeSSD × 4, 100Gbps 인터 커넥트 어댑터(Mellanox Infiniband EDR 또는 Intel Omnipath)를 최대 4기 탑재할 수 있다.

 

이러한 성능 강화로 Gen10 모델과 TensorFlow, Caffe2 프레임 워크를 사용한 HPE 연구실 테스트에서 Gen9 보다 평균 3.12배 고속화가 실증됐다고 밝혔다. 또한 Apollo 6500 Gen10은 하드웨어 관리 기능 iLO 5, Ubuntu / CentOS 뿐만 아니라 Red Hat Enterprise Linux, SUSE Enterprise Linux 등을 지원한다. 


HPE는 서버 신제품과 더불어 기업의 딥 러닝/AI 전략적 데이터 분석 도입을 지원하는 컨설팅 서비스로 HPE Artificial Intelligence Transformation Workshop 제공도 발표했다. 이 서비스는 HPE의 기술 서비스인 HPE Pointnext의 전문가가 기획 단계부터 시스템 아키텍처 수립, 실장, 운용까지 전체적으로 지원한다는 것으로써, 지난해 딥 러닝 처리에 최적의 기능/구성을 권장하는 툴 그룹 Deep Learning Cookbook을 발표하고 있는데 이번에 새롭게 Deep Learning Performance Guide가 추가됐다. 이는 HP Labs가 수집한 방대한 수의 도입 환경 벤치마크 측정치를 분석하여 실제 측정치를 해석, 워크 로드의 퍼포먼스를 평가하는 최적의 하드웨어/소프트웨어 스택을 권장하는 동시에 기존 하드웨어로 딥 러닝 처리를 진행할 경우 병목 검출에도 사용할 수 있다.

 

이들 새로운 도구/서비스와 함께 엔터프라이즈 수준의 각종 지원 서비스, 온 프레미스 환경을 종량제 과금 모델에서 이용할 수 있게 하는 HPE GreenLake 플렉스 캐퍼시티 등도 제공함으로써 높아지는 AI/딥 러닝 활용 요구를 지원한다.

반응형
Posted by 랩터 인터내셔널

세계 1위 소프트웨어 기업 마이크로소프트(Microsoft)는 자사가 제공하는 번역 앱에 뉴럴 네트워크 기술을 이용한 오프라인 번역 기능 추가를 발표하며 오프 라인에서도 보다 정밀한 번역을 지원하기 시작했다.


이번 오프 라인 언어 팩에 뉴럴 네트워크로 기술된 것으로 기존 언어 팩과 비교해 번역 품질을 23%을 향상시키면서 동시에 파일 용량은 약 50% 정도 절감을 실현했다. 마이크로소프트는 2016년부터 기계 번역에 뉴럴 네트워크 기술을 응용하기 시작해 당초 완전히 클라우드 측에서 처리하여 브라우저에서 제공, 2017년에는 인공지능 가속기를 탑재한 안드로이드 단말기에 로컬 실행으로 적용했다.


오늘날 CPU의 고성능화와 알고리즘 최적화로 이번에 AI 칩을 갖지 않는 iOS, Android, Amazon Fire 단말기에서도 이용이 가능하며 윈도우용에 가까운 수준으로 제공한다.

반응형
Posted by 랩터 인터내셔널


구글이 여러 소음 속에서 특정 사람의 음성만을 분리하는 기술을 개발했다고 발표했다.


이 기술의 베이스는 인공지능 머신러닝으로 구글은 유튜브에 업로드되어 있는 10만개의 고화질 동영상 중 BGM이나 소음 등이 없고 화자의 얼굴이 비치며 이야기하고 있는 장면을 2000시간 분량 추출했다. 이어 이들 동영상의 음성을 의도적으로 구성하여 소음 속에서 누군가 말하는 상황을 가상적으로 만들어 냈다.


이 데이터를 사용하여 뉴럴 네트워크 기반 모델을 훈련시켜 머신에 다시 화자별 음성을 분리시키도록 함으로써 소음 속의 동영상에서 특정인의 목소리만 추출할 수 있도록 했다. 이 기술은 영상 정보도 중요하여 머신 영상 속에서 화자의 입이 움직이고 있음을 인식함으로써 음성 추출의 확률을 높이고 있다.


이 기술을 이용하여 화자의 얼굴이 비치고 있는 동영상에서 임의의 인물을 선택함으로써 다른 사람의 음성을 줄이면서 그 인물만의 음성을 정확하게 들을 수 있다.

반응형
Posted by 랩터 인터내셔널
미국 뉴욕 타임스(www.nytimes.com)는 애플이 구글의 인공지능(AI) 연구 책임자를 고용했다고 보도했습니다.


애플에 새롭게 머신러닝과 인공지능 전략 담당자로 이직한 John Giannandrea는 구글에서 8년간 지낸 인물이며 그는 구글 검색과 Gmail 같은 구글의 각 서비스에 AI 기술을 주도했으며 검색에서는 검색 워드에 대한 응답을 표시하는 분야에도 관여한 것으로 확인되고 있습니다.


애플은 그 외에도 카네기 멜론 대학 교수인 Ruslan Salakhutdinov를 애플의 인공지능 연구 부문 책임자로 이미 임명하고 있습니다. 애플은 아이폰8과 X 모델의 메인 SoC인 A11 바이오닉 칩에 뉴럴 네트워크 코어를 탑재하거나 얼굴 인식 기술인 Face ID에도 인공지능을 동원하는 등 인공지능 분야에 주력하고 있습니다.


인공지능 기술은 전세계에 존재하는 모든 인류의 모든 산업 및 모든 분야를 이끌어가는 가장 최상위 융합 기술이자 IT 기술이기 때문에 모든 기업들이 사활을 걸고 있습니다.

 

반응형
Posted by 랩터 인터내셔널

NVIDIA는 인공지능/딥러닝(심층 학습) 관련 테크놀로지 이벤트 "GTC 2018"을 미국 캘리포니아주 새너제이에 있는 산호세 컨벤션 센터에서 3월 26일~29일 4일간 개최하고 있다.


2일째인 3월 27일에는 CEO 젠슨 황의 기조 강연이 진행됐고 지난해(2017년) GTC에서 발표한 오픈 소스 딥러닝 추론용 엑셀러레이터로 DLA(Deep Learning Accelerator)가 Arm의 Project Trillium에 채용됐다고 밝혔다.


Project Trillium은 Arm이 2018년 2월 발표한 머신러닝/딥러닝용 IP 제품군+소프트웨어 개발 환경이다. Arm의 고객은 다른 Project Trillium IP 제품군과 함께 DLA를 자사 제품에 탑재할 수 있게 된다.


또 NVIDIA는 이 회사의 딥 러닝 추론을 위한 개발 환경인 TensorRT의 최신 버전인 TensorRT 4를 발표했다. NVIDIA의 DLA는 딥 러닝 추론에 특화된 엑셀러레이터이며 자율 주행용으로 발표되면서 이 분기 중에 샘플 출하가 시작될 예정인 Xavier에 채택됐다.


액셀러레이터의 특징은 특정 처리(화상 인식과 음성 인식 등)에 관해 저전력으로 추론을 할 수 있는 것이다. 동영상 재생에서 CPU와 GPU에 내장되어 있는 액셀러레이터 기능을 사용하면 저전력으로 구동되는 것과 같은 이치다.


DLA(타사의 DLA와 구별하기 위한 NVDLA로 불리기도 하지만 본 기사에서는 DLA로 취급)는 오픈 소스로서 그 사양이나 소프트웨어 API 등이 공개되고 있다. 이 때문에 경쟁사도 포함한 사양서를 바탕으로 자사 제품에 실장이 가능하지만 그래도 처음부터 만들 필요가 있기 때문에 나름의 개발 자원을 할애할 필요가 있다.


거기서 NVIDIA는 IP 디자인을 SoC 벤더에 제공하고 있는 Arm과 제휴하고 DLA를 머신러닝/딥러닝 연산 솔루션인 Arm의 Project Trillium의 일부분으로 활용하는 것을 노린다.구체적으로는 Arm이 DLA의 IP를 Arm의 고객인 SoC 벤더 등에 제공한다. 이로써 SoC 벤더는 개발비용을 줄이면서 DLA의 기능을 자사 제품에 탑재할 수 있게 된다.


NVIDIA는 딥러닝 추론을 위한 개발 환경 TensorRT의 최신 버전인 TensorRT 4도 발표했다.

TensorRT는 NVIDIA GPU에 의한 딥러닝 추론을 최적화하는 것으로 INT8, FP16으로 연산할 수 있다. 클라우드 데이터 센터 처리의 70%를 차지하는 화상 인식과 음성 인식 등의 심층 학습 추론을 GPU에서 효율적으로 처리할 수 있다.


이번에 발표된 새 버전에서는 딥러닝 프레임워크에서 가장 인기 있는 TensorFlow 1.7에 TensorRT가 통합되어 TensorFlow를 바탕으로 딥러닝 추론을 이용한 소프트웨어를 개발한 엔지니어가 기존보다 용이하게 NVIDIA의 GPU나 DLA에 최적화할 수 있게 된다. 또한 최적화 후에는 성능이 8배로 올라간다.


또 NVIDIA는 Amazon, Facebook, Microsoft등과 협력하여 Facebook의 ONNX, Microsoft의 WinML또는 Caffe2, Chainer, CNTK, MXMNet, Pytorch등 다른 프레임워크로의 최적화도 추진하겠다고 밝혔다.


그 외에도 SAP, MathWorks 등의 소프트웨어 벤더도 TensorRT를 이용하여 NVIDIA의 GPU/DLA 딥러닝 추론에 최적화를 도모한다.


출처 - https://pc.watch.impress.co.jp/docs/news/event/1113828.html

반응형
Posted by 랩터 인터내셔널


마이크로소프트(Microsoft)와 중국의 샤오미(Xiaomi)가 파트너십을 더욱 강화하여 클라우드 컴퓨팅, AI(인공지능), 하드웨어에서 협력한다고 발표했습니다.


이 제휴는 애저(Azure)를 포함한 마이크로소프트의 클라우드 컴퓨팅 제품을 이용해 샤오미의 클라우드 서비스를 국제 시장에서 지원하거나 샤오미의 미래 제품 개발 지원, AI 서비스 공동 작업 등에 초점이 맞춰지고 있습니다.


또 샤오미의 스마트 스피커인 Mi AI Speaker에 마이크로소프트의 코타나(Cortana)를 통합하는 것도 검토되고 있으며 향후 몇 년 동안 급속히 성장할 것으로 보이는 AI 베이스의 스피커를 위해 보다 깊은 기술 통합과 협력을 추진 할 방침입니다.


두 회사는 이전부터 제휴를 진행하고 있는데 2016년에는 모바일 단말기에서 제휴를 확대하고 크로스 라이센스 계약 및 샤오미의 마이크로소프트 특허 매수 등이 진행됐습니다.

반응형
Posted by 랩터 인터내셔널

Arm는 13일(영국 시간), IoT 분야에서 에지(클라이언트 단말기)측에서 머신러닝 처리에 적합한 프로세서 IP(지적 재산)으로 "Project Trillium"을 발표했다. 머신러닝(ML)이나 뉴럴 네트워크(NN), 오브젝트 검출(OD) 같은 고도의 처리를 에지 측에서 고속·저전력으로 실행하여 통상적인 CPU와 GPU, 프로그래머블 DSP 보다 훨씬 고속인 것을 강조하고 있다.


Project Trillium으로 제공되는 IP는 머신러닝(ML)과 오브젝트 검출(OB)에 대한 디자인 및 그것들의 프로세서에 최적화 된 라이브러리 등의 소프트웨어 등이다. 고객은 이들을 필요에 따라 조합하고 이용함으로써 다양한 용도로 엣지 사이드에서 ML, OB의 고도의 처리를 실현할 수 있다는 것이다.


"Arm ML Processor"는 ML 처리에 고정적으로 최적화 된 부분과 프로그래머블 영역을 갖고, 1초당 4.6조회 이상의 연산(4.6TOPs)을 가능하게 하며 그것을 와트로 나눈 TOPs/W도 매우 높은 3TOPs/W로 열과 소비 전력의 관점에서도 뛰어나다고 밝혔다.


"Arm OD Processor"는 인체의 인식에 특화 된 것이며 얼굴 뿐만 아니라 어깨나 머리 등 부분적으로도 인체를 인식할 수 있다. 이어 60fps의 풀HD(1920×1080) 동영상 입력에도 대응하면서 거의 실시간 처리를 실현하고 있어 종래의 DSP(신호 처리 장치)대비 80배 이상 고속인 것으로 알려졌다.


초기는 모바일에 집중되어 제공되지만 순차적으로 AI 스피커 같은 다양한 용도의 것을 제공할 예정이다. 또 "Project Trillium"도 코드 네임으로 2018년 중반을 예정하는 정식 발표까지 상표도 바뀔 수 있다.


출처 - https://pc.watch.impress.co.jp/docs/news/1106439.html

반응형
Posted by 랩터 인터내셔널

Q4 Fiscal 2018 Summary

 

GAAP
($ in millions except earnings per share) Q4 FY18 Q3 FY18 Q4 FY17 Q/Q Y/Y
Revenue $2,911   $2,636   $2,173   Up 10% Up 34%
Gross margin   61.9%     59.5%     60.0%   Up 240 bps Up 190 bps
Operating expenses $728   $674   $570   Up 8% Up 28%
Operating income $1,073   $895   $733   Up 20% Up 46%
Net income $1,118   $838   $655   Up 33% Up 71%
Diluted earnings per share $1.78   $1.33   $0.99   Up 34% Up 80%

 

Non-GAAP
($ in millions except earnings per share) Q4 FY18 Q3 FY18 Q4 FY17 Q/Q Y/Y
Revenue $2,911   $2,636   $2,173   Up 10% Up 34%
Gross margin   62.1%     59.7%     60.2%   Up 240 bps Up 190 bps
Operating expenses $607   $570   $498   Up 6% Up 22%
Operating income $1,202   $1,005   $809   Up 20% Up 49%
Net income $1,081   $833   $704   Up 30% Up 54%
Diluted earnings per share $1.72   $1.33   $1.13   Up 29% Up 52%


전년 대비 34% 증가한 29억 1000만 달러의 분기 매출 기록
전년 대비 41% 증가한 97억 7천만 달러의 연간 매출 기록
분기 별 GAAP 매출 총 이익률은 61.9%, 비 GAAP 기준 총 매출액은 62.1%
연간 기준 GAAP EPS는 전년 대비 88% 증가한 4.82 달러 기록


엔비디아는 2018년 1월 28일 마감 된 4분기 실적이 전년도 21억 7000만 달러에서 34% 증가한 29억 1000만 달러를 기록했으며 전 분기 26억 4000만 달러에서 10% 증가했다고 발표했다. 1/4 분기 주당 GAAP 수익은 1.78 달러로 전년도 0.99 달러 대비 80% 상승했으며 전 분기 1.33 달러에서 34% 상승했다. 2018 회계 연도의 수익은 97억 7000만 달러로 전년도 69억 1천만 달러에서 41% 증가했고, 주당 GAAP 수익은 4.82 달러로 전년도 2.57 달러에서 88% 증가했다.


"우리는 우수한 기록을 세우며 기록적인 분기를 달성했다. 전 세계 산업계에서 인공지능을 도입하기 위해 경쟁하고, 거의 모든 인터넷 및 클라우드 서비스 제공 업체가 Volta GPU 채택, 수백 개의 운송 회사가 NVIDIA DRIVE 플랫폼을 사용하고 있다. 제조업과 건강 관리에서 스마트 도시에 이르기까지 혁신적인 플랫폼을 사용하여 미래를 발명하고 있다." (엔비디아 CEO 젠슨 황)


주요 실적


데이터 센터


NVIDIA Tesla® V100 GPU 가속기가 이제 주요 모든 컴퓨터 제조업체를 통해 제공되며 주요 모든 클라우드 업체에서 AI 및 고성능 컴퓨팅 제공
34개의 GPU 가속 시스템을 Top500 슈퍼 컴퓨터 목록에 추가
의료 영상 분야에서 GE Health 및 Nuance와 같은 주요 수직 산업 분야에서 AI를 강화하기 위한 파트너십 발표
HPC 애플리케이션을 사용하는 과학자와 데스크톱 GPU를 사용하는 인공지능 연구원을 지원하기 위해 NVIDIA® GPU 클라우드 컨테이너 레지스트리 확장


게이밍


Max-Q 디자인을 사용하는 게이밍 노트북 발표, Max-Q 디자인은 이전 세대 게이밍 랩톱보다 3배 더 얇은 디자인
NVIDIA SHIELD ™와 함께 NVIDIA G-SYNC ™ 기술을 사용하여 최고급 65인치 디스플레이에 초 저지연 PC 게임 및 통합 스트리밍을 제공하는 BFGD ™ 대형 포맷 게임 디스플레이 출시
게임 플레이를 커스터마이징 할 수있는 NVIDIA Freestyle과 NVIDIA Ansel 포토 모드를 위한 업데이트 된 인터페이스를 비롯 새로운 도구와 게임 진행을 캡처하기 위한 NVIDIA ShadowPlay ™ 하이라이트를 지원하는 PlayerUnknown의 Battleground 및 Fortnite를 포함, 새로운 타이틀로 향상된 GeForce Experience ™
스팀 온라인 게임 플랫폼에서 GeForce GPU 점유율이 86% 까지 상승
Star Wars : The Last Jedi 출시와 관련된 두 개의 새로운 컬렉터 에디션으로 Star Wars 테마 NVIDIA TITAN XP GPU 출시



자동차


1분기 고객 가용성을 확보한 세계 최초의 자율 머신 프로세서인 NVIDIA DRIVE ™ Xavier ™ 발표 및 시연
세계 최초의 기능적으로 안전한 AI 자동 운전 플랫폼 NVIDIA DRIVE와 모든 종류의 운전 조건을 시뮬레이션하여 신경 네트워크를 테스트하고 검증하는 일련의 도구 발표
개방형 NVIDIA DRIVE AI 자동 운전 플랫폼을 사용하여 운전 차량을 개발하기 위해 Uber 및 Aurora와의 파트너십 발표
ZF 및 Baidu와 협력하여 Chery를 최초 고객으로 하여 중국 시장을 위한 최초의 AI 자율 차량 플랫폼 구축
폭스 바겐과 제휴하여 NVIDIA DRIVE IX 지능형 체험 플랫폼을 사용하여 AI를 미래의 VW 차량에 통합해 편리함과 안전 기능이 강화 된 AI 조종석 제작

메르세데스 벤츠 MBUX 차량용 AI 스마트 조종석 시스템 공급 

 

반응형
Posted by 랩터 인터내셔널