DP-900 [ https://docs.microsoft.com/pt-br/learn/certifications/exams/dp-900 ]
Este artigo serve como um guia completo do Azure Databricks para os iniciantes. Aqui, você vai percorrer o básico da Databricks no Azure, como criá-lo no portal do Azure e vários componentes e internos relacionados a ele.
Os sistemas estão trabalhando com grandes quantidades de dados em petabytes ou até mais e ainda está crescendo a uma taxa exponencial. O big data está presente em todos os lugares ao nosso redor e vem de diferentes fontes, como sites de mÃdia social, vendas, dados de clientes, dados transacionais, etc. E acredito firmemente que esses dados só têm seu valor se pudermos processá-los de forma interativa e mais rápida.
Apache Spark é um sistema de computação de cluster rápido e de código aberto e uma estrutura altamente popular para análise de big data. Essa estrutura processa os dados em paralelo que ajudam a aumentar o desempenho. Está escrito em Scala, uma linguagem de alto nÃvel, e também suporta APIs para Python, SQL, Java e R.
Agora a pergunta é:
O que é Azure Databricks e como está relacionado com Spark?
Simplificando, Databricks é a implementação do Apache Spark no Azure. Com clusters Spark totalmente gerenciados, ele é usado para processar grandes cargas de trabalho de dados e também ajuda na engenharia de dados, exploração de dados e também visualização de dados usando Machine learning.
Enquanto eu estava trabalhando em databricks, eu acho que esta plataforma analÃtica é extremamente amigável e flexÃvel com facilidade para usar APIs como Python, R, etc. Para explicar isso um pouco mais, digamos que você criou um data frame em Python, com o Azure Databricks, você pode carregar esses dados em uma exibição temporária e pode usar Scala, R ou SQL com um ponteiro referente a esta visão temporária. Isso permite que você codifique em vários idiomas no mesmo notebook. Esta foi apenas uma das caracterÃsticas legais dele.
Por que Azure Databricks?
Evidentemente, a adoção da Databricks está ganhando importância e relevância em um mundo de big data por algumas razões. Além do suporte a vários idiomas, este serviço nos permite integrar facilmente com muitos serviços do Azure, como Blob Storage, Data Lake Store, SQL Database e ferramentas de BI como Power BI, Tableau, etc. É uma grande plataforma colaborativa que permite que os profissionais de dados compartilhem clusters e espaços de trabalho, o que leva a uma maior produtividade.
Há algumas caracterÃsticas que vale a pena mencionar aqui:
Databricks Workspace – Oferece um espaço de trabalho interativo que permite que cientistas de dados, engenheiros de dados e empresas colaborem e trabalhem em conjunto em notebooks e dashboards
Databricks Runtime – Incluindo o Apache Spark, eles são um conjunto adicional de componentes e atualizações que garante melhorias em termos de desempenho e segurança de cargas de trabalho e análises de big data. Essas versões são lançadas regularmente
Como mencionado anteriormente, ele se integra profundamente com outros serviços como serviços Azure, Apache Kafka e Hadoop Storage e você pode ainda publicar os dados em aprendizado de máquina, análise de fluxo, Power BI, etc.
Por ser um serviço totalmente gerenciado, vários recursos como armazenamento, rede virtual, etc. são implantados em um grupo de recursos bloqueado. Você também pode implantar este serviço em sua própria rede virtual. Nós vamos ver isso mais tarde no artigo
Sistema de arquivos Databricks (DBFS) – Esta é uma camada de abstração em cima do armazenamento de objetos. Isso permite que você monte objetos de armazenamento como o Azure Blob Storage, que permite acessar dados como se estivessem no sistema de arquivos local.
Crie um serviço Azure Databricks
Como para qualquer outro recurso no Azure, você precisaria de uma assinatura do Azure para criar Databricks. Caso não tenha, você pode ir aqui para criar um de graça para si mesmo.
1. Faça login no portal do Azure e clique em Criar um recurso e digitar conjuntos de dados na caixa de pesquisa:
2. Após clicar em Azure Databricks, clique em +Criar:
3. Você será levado para a próxima tela. Forneça as seguintes informações:
- Assinatura: Selecione sua assinatura
- Grupo de recursos – Estou usando o que já criei (azsqlshackrg), você pode criar um novo também para isso
- Nome do espaço de trabalho – É o nome (azdatabricks) que você deseja dar para o seu serviço de tijolos de dados
- Localização – Selecione região onde deseja implantar seu serviço de tijolos de dados, Leste dos EUA
- NÃvel de preços – Estou selecionando Premium – DBUs grátis de 14 dias para esta demonstração. Para saber mais detalhes sobre os nÃveis Standard e Premium, clique aqui
- Depois, clique no botão Review + Create para revisar os valores enviados e, finalmente, clique no botão Criar para criar este serviço:
10. O Workspace segue um formato similar ao da imagem abaixo. Na guia Espaço de trabalho, você pode criar notebooks e gerenciar seus documentos. A guia Dados abaixo permite criar tabelas e bancos de dados. Você também pode trabalhar com várias fontes de dados como Cassandra, Kafka, Azure Blob Storage, etc. Clique em Clusters na lista vertical de opções: