Um guia para iniciantes para Azure Databricks [Dica do MCT para a DP-900]

 


DP-900https://docs.microsoft.com/pt-br/learn/certifications/exams/dp-900 ]


 

Este artigo serve como um guia completo do Azure Databricks para os iniciantes. Aqui, você vai percorrer o básico da Databricks no Azure, como criá-lo no portal do Azure e vários componentes e internos relacionados a ele.

Os sistemas estão trabalhando com grandes quantidades de dados em petabytes ou até mais e ainda está crescendo a uma taxa exponencial. O big data está presente em todos os lugares ao nosso redor e vem de diferentes fontes, como sites de mídia social, vendas, dados de clientes, dados transacionais, etc. E acredito firmemente que esses dados só têm seu valor se pudermos processá-los de forma interativa e mais rápida.

Apache Spark é um sistema de computação de cluster rápido e de código aberto e uma estrutura altamente popular para análise de big data. Essa estrutura processa os dados em paralelo que ajudam a aumentar o desempenho. Está escrito em Scala, uma linguagem de alto nível, e também suporta APIs para Python, SQL, Java e R.

Agora a pergunta é:

O que é Azure Databricks e como está relacionado com Spark?

Simplificando, Databricks é a implementação do Apache Spark no Azure. Com clusters Spark totalmente gerenciados, ele é usado para processar grandes cargas de trabalho de dados e também ajuda na engenharia de dados, exploração de dados e também visualização de dados usando Machine learning.

Enquanto eu estava trabalhando em databricks, eu acho que esta plataforma analítica é extremamente amigável e flexível com facilidade para usar APIs como Python, R, etc. Para explicar isso um pouco mais, digamos que você criou um data frame em Python, com o Azure Databricks, você pode carregar esses dados em uma exibição temporária e pode usar Scala, R ou SQL com um ponteiro referente a esta visão temporária. Isso permite que você codifique em vários idiomas no mesmo notebook. Esta foi apenas uma das características legais dele.

Por que Azure Databricks?

Evidentemente, a adoção da Databricks está ganhando importância e relevância em um mundo de big data por algumas razões. Além do suporte a vários idiomas, este serviço nos permite integrar facilmente com muitos serviços do Azure, como Blob Storage, Data Lake Store, SQL Database e ferramentas de BI como Power BI, Tableau, etc. É uma grande plataforma colaborativa que permite que os profissionais de dados compartilhem clusters e espaços de trabalho, o que leva a uma maior produtividade.


Há algumas características que vale a pena mencionar aqui:

Databricks Workspace – Oferece um espaço de trabalho interativo que permite que cientistas de dados, engenheiros de dados e empresas colaborem e trabalhem em conjunto em notebooks e dashboards

Databricks Runtime – Incluindo o Apache Spark, eles são um conjunto adicional de componentes e atualizações que garante melhorias em termos de desempenho e segurança de cargas de trabalho e análises de big data. Essas versões são lançadas regularmente

Como mencionado anteriormente, ele se integra profundamente com outros serviços como serviços Azure, Apache Kafka e Hadoop Storage e você pode ainda publicar os dados em aprendizado de máquina, análise de fluxo, Power BI, etc.

Por ser um serviço totalmente gerenciado, vários recursos como armazenamento, rede virtual, etc. são implantados em um grupo de recursos bloqueado. Você também pode implantar este serviço em sua própria rede virtual. Nós vamos ver isso mais tarde no artigo

Sistema de arquivos Databricks (DBFS) – Esta é uma camada de abstração em cima do armazenamento de objetos. Isso permite que você monte objetos de armazenamento como o Azure Blob Storage, que permite acessar dados como se estivessem no sistema de arquivos local. 

Crie um serviço Azure Databricks

Como para qualquer outro recurso no Azure, você precisaria de uma assinatura do Azure para criar Databricks. Caso não tenha, você pode ir aqui para criar um de graça para si mesmo.

1. Faça login no portal do Azure e clique em Criar um recurso e digitar conjuntos de dados na caixa de pesquisa:


2. Após clicar em Azure Databricks, clique em +Criar:


3. Você será levado para a próxima tela. Forneça as seguintes informações:

  • Assinatura: Selecione sua assinatura
  • Grupo de recursos – Estou usando o que já criei (azsqlshackrg), você pode criar um novo também para isso
  • Nome do espaço de trabalho – É o nome (azdatabricks) que você deseja dar para o seu serviço de tijolos de dados
  • Localização – Selecione região onde deseja implantar seu serviço de tijolos de dados, Leste dos EUA
  • Nível de preços – Estou selecionando Premium – DBUs grátis de 14 dias para esta demonstração. Para saber mais detalhes sobre os níveis Standard e Premium, clique aqui
  • Depois, clique no botão Review + Create para revisar os valores enviados e, finalmente, clique no botão Criar para criar este serviço:


4. Após a validação clique em Criar.



5. Para acompanhar o processo, clique no ícone de um sino no canto direito superior da tela. Este é a área de notificações e mostra alertas e informações relevantes aos processos. 



6. Ao término do Deploy, vamos para o recurso.


7. Ao clicar em Ir para o recurso, você será direcionado para o Databricks criado.


8. Clique em Iniciar o Workspace.


9. Agora é só aguardar a carga.


10. O Workspace segue um formato similar ao da imagem abaixo. Na guia Espaço de trabalho, você pode criar notebooks e gerenciar seus documentos. A guia Dados abaixo permite criar tabelas e bancos de dados. Você também pode trabalhar com várias fontes de dados como Cassandra, Kafka, Azure Blob Storage, etc. Clique em Clusters na lista vertical de opções:


Criar um cluster Spark no Azure DatabricksClusters em conjuntos de dados no Azure são construídos em um ambiente de centelha Apache totalmente gerenciado; você pode aumentar ou diminuir automaticamente com base nas necessidades dos negócios. Clique em Criar cluster abaixo na página Clusters:

11. Preencha os dados conforme sua necessidade e então clique em Criar Cluster (Create Cluster).


12. Agora aguarde o processo ser finalizado.



13. Note que temos dois grupos de recursos. Um para o Workspace e outro para armazenagem dos discos do cluster.


14. Veja que é possível identificar uma VM e 03 discos quando clicamos no grupo de recursos.






Postar um comentário

Comente sem faltar com respeito - ;-)

Postagem Anterior Próxima Postagem