Azure anuncia disponibilidade geral de clusters de expansão horizontal de GPU NVIDIA A100: o supercomputador de nuvem pública mais rápido

 


No dia 01 de Junho de 2021 a Microsoft anuncia a disponibilidade geral de instâncias de GPU de nuvem Azure ND A100 v4 - com tecnologia NVIDIA A100 Tensor Core GPUs - alcançando escalabilidade de supercomputação de classe de liderança em uma nuvem pública. Para clientes exigentes que buscam a próxima fronteira da IA ​​e da computação de alto desempenho (HPC), a escalabilidade é a chave para desbloquear o custo total de solução e o tempo para solução aprimorados.

Simplificando, ND A100 v4 - equipado com GPUs NVIDIA A100 - foi projetado para permitir que os clientes mais exigentes aumentem e diminuam sem perder a velocidade.

O benchmarking com 164 máquinas virtuais ND A100 v4 em um cluster de supercomputação público de pré-lançamento rendeu um resultado Linpack de alto desempenho (HPL) de 16,59 petaflops. Este resultado HPL, entregue em infraestrutura de nuvem pública, ficaria entre os 20 melhores da lista dos 500 melhores supercomputadores de novembro de 2020, ou entre os 10 melhores na Europa, com base na região onde o trabalho foi executado.

Medido via HPL-AI, uma variante Linpack de alto desempenho com foco em inteligência artificial (AI) e aprendizado de máquina (ML), o mesmo pool de 164 VMs alcançou um resultado de 142,8 Petaflop, colocando-o entre os 5 supercomputadores AI mais rápidos do mundo conhecidos como medido pela lista oficial de benchmarks HPL-AI. Esses resultados de HPL, utilizando apenas uma fração de um único cluster público do Azure, são classificados com os recursos de supercomputação locais dedicados mais poderosos do mundo.

E hoje, conforme o ND A100 v4 vai para disponibilidade geral, estamos anunciando a disponibilidade imediata dos supercomputadores de nuvem pública mais rápidos do mundo sob demanda, perto de você, por meio de quatro regiões do Azure: Leste dos Estados Unidos, Oeste dos Estados Unidos 2, Oeste da Europa, e centro-sul dos Estados Unidos.

A série ND A100 v4 VM começa com uma única máquina virtual (VM) e oito GPUs A100 Tensor Core baseadas na arquitetura NVIDIA Ampere, e pode escalar até milhares de GPUs em um único cluster com uma largura de banda de interconexão sem precedentes de 1,6 Tb / s por VM entregue via links NVIDIA HDR 200 Gb / s InfiniBand: um para cada GPU individual. Além disso, cada VM de 8 GPU apresenta um complemento completo de NVIDIA NVLink de terceira geração, permitindo conectividade de GPU para GPU dentro da VM acima de 600 gigabytes por segundo.

Construído para aproveitar as vantagens das ferramentas e bibliotecas de HPC e AI padrão de fato da indústria, os clientes podem aproveitar as GPUs do ND A100 v4 e recursos de interconexão exclusivos sem qualquer software ou estrutura especial, usando as mesmas bibliotecas NVIDIA NCCL2 que AI e HPC aceleradas por GPU escaláveis as cargas de trabalho oferecem suporte pronto para uso, sem nenhuma preocupação com a topologia ou posicionamento da rede subjacente. O provisionamento de VMs no mesmo conjunto de escala de VM configura automaticamente a malha de interconexão.

Qualquer pessoa pode trazer cargas de trabalho exigentes de IA e HPC locais para a nuvem por meio do ND A100 v4 com o mínimo de confusão, mas para clientes que preferem uma abordagem nativa do Azure, o Azure Machine Learning fornece uma máquina virtual ajustada (pré-instalada com os drivers necessários e bibliotecas) e ambientes baseados em contêiner otimizados para a família ND A100 v4. Receitas de amostra e Jupyter Notebooks ajudam os usuários a começar rapidamente com vários frameworks, incluindo PyTorch, TensorFlow e modelos de treinamento de última geração como BERT. Com o Azure Machine Learning, os clientes têm acesso às mesmas ferramentas e recursos no Azure que nossas equipes de engenharia de IA.

Cada GPU NVIDIA A100 oferece 1,7 a 3,2 vezes o desempenho das GPUs V100 anteriores e até 20 vezes o desempenho ao colocar em camadas novos recursos arquitetônicos, como modos de precisão mista, dispersão e GPU multi-instância (MIG) para cargas de trabalho específicas. E no coração de cada VM está uma plataforma EPYC AMD de 2ª geração totalmente nova, com PCI Express Gen 4.0 - para transferências de CPU para GPU duas vezes mais rápido que as gerações anteriores.

Mal podemos esperar para ver o que você criará, analisará e descobrirá com a nova plataforma Azure ND A100 v4.

Tradução da matéria oficial,
REF: https://azure.microsoft.com/en-us/blog/azure-announces-general-availability-of-scaleup-scaleout-nvidia-a100-gpu-instances-claims-title-of-fastest-public-cloud-super/ 

Postar um comentário

Comente sem faltar com respeito - ;-)

Postagem Anterior Próxima Postagem