Dataproc

Uma plataforma gerenciada para Spark, Hadoop e análise de dados de código aberto

Execute clusters do Apache Spark, Hadoop e mais de 30 frameworks de código aberto totalmente gerenciados com facilidade e controle. Acelere o Spark no Compute Engine com o Lightning Engine e faça a integração com a lakehouse aberta do Google Cloud.

Apache Spark é uma marca registrada da Apache Software Foundation.

Recursos

Suporte robusto ao ecossistema Hadoop

Além do Spark, o Dataproc oferece serviços totalmente gerenciados para a pilha completa do Apache Hadoop (MapReduce, HDFS, YARN), além do Flink, Trino, Hive e mais de 30 outras ferramentas de código aberto. Para oferecer suporte a isso, o Dataproc se integra ao Dataproc Metastore, um serviço totalmente gerenciado do Hive Metastore, simplificando o gerenciamento de metadados para seus componentes tradicionais de data lake. Modernize cargas de trabalho tradicionais de data lake ou crie novos aplicativos com seus mecanismos preferidos.

Spark gerenciado com o Lightning Engine

Execute cargas de trabalho exigentes do Spark com o controle de um cluster gerenciado do Dataproc, agora com a aceleração de 3,6x* na velocidade de consulta pelo Lightning Engine,** em prévia. Tenha ganhos significativos de desempenho para operações do Spark SQL e DataFrame. Configure os ambientes do Spark de acordo com suas necessidades, escolhendo versões e bibliotecas.

* As consultas são derivadas do padrão TPC-DS e do padrão TPC-H e, portanto, não podem ser comparadas aos resultados publicados do padrão TPC-DS e do padrão TPC-H, porque essas execuções não atendem a todos os requisitos da especificação do padrão TPC-DS e do padrão TPC-H.

**Disponível para o Dataproc no nível Premium do Compute Engine.

Configuração e gerenciamento flexíveis de clusters

Personalize os clusters do Dataproc com uma ampla variedade de tipos de máquina (incluindo GPUs), VMs preemptivas, opções de disco, políticas de autoescalonamento, ações de inicialização, contêiner/imagens e componentes opcionais. Use recursos como modelos de fluxo de trabalho para orquestrar jobs complexos e gerenciar clusters pelo console, gcloud, API ou bibliotecas de cliente. Tenha uma visibilidade completa da integridade e do desempenho do cluster com a integração ao Cloud Monitoring, que oferece métricas abrangentes, painéis e recursos de alerta.

Conectividade aberta do lakehouse

Os clusters do Dataproc se integram de maneira nativa ao BigLake Metastore, permitindo processar dados armazenados em formatos abertos, como o Apache Iceberg no Cloud Storage. Para necessidades tradicionais de metadados com base no Hive, há uma integração perfeita com o serviço gerenciado Metastore do Dataproc. Use o Dataplex Universal Catalog para descoberta, linhagem e governança unificadas nos seus recursos de lakehouse. Amplie seus aplicativos de dados conectando o Dataproc ao BigQuery, Vertex AI, Spanner, Pub/Sub e Data Fusion, criando soluções completas e eficientes.

Proteja seu processamento de dados de código aberto

Aproveite a segurança robusta do Google Cloud. Configure o Kerberos, gerencie o acesso com o IAM, aplique políticas de rede com o VPC Service Controls e use o CMEK. Integre com o Dataplex Universal Catalog para gerenciamento centralizado de políticas e ative o controle de acesso refinado com o BigLake.

Capacite engenheiros e cientistas de dados

Use ferramentas e IDEs conhecidas, como o Jupyter e o VS Code, em laptops para conectar clusters do Dataproc. Integre o Dataproc ao Vertex AI Workbench para desenvolvimento interativo do Spark em clusters e crie pipelines de IA/ML completos com a Vertex AI.

Como funciona

Operações de cluster simplificadas para análises avançadas

Usos comuns

Modernização de data lake e migração do Hadoop

Modernize seu data lake

Migrar cargas de trabalho do Hadoop e do Spark no local para a nuvem com facilidade. Use o Dataproc para executar jobs do MapReduce, Hive, Pig e Spark em dados no Cloud Storage, integrados ao Dataproc Metastore e governados pelo Dataplex Universal Catalog.

Modernize seu data lake

Migrar cargas de trabalho do Hadoop e do Spark no local para a nuvem com facilidade. Use o Dataproc para executar jobs do MapReduce, Hive, Pig e Spark em dados no Cloud Storage, integrados ao Dataproc Metastore e governados pelo Dataplex Universal Catalog.

ETL em lote em grande escala com o Spark e o Hadoop

Processamento em lote corporativo

Processe e transforme conjuntos de dados enormes com eficiência usando o Spark, acelerado pelo Lightning Engine com o Dataproc no Compute Engine, ou o MapReduce em clusters personalizáveis do Dataproc. Otimize pipelines de ETL complexos para desempenho e custo em um ambiente controlado.

    Processamento em lote corporativo

    Processe e transforme conjuntos de dados enormes com eficiência usando o Spark, acelerado pelo Lightning Engine com o Dataproc no Compute Engine, ou o MapReduce em clusters personalizáveis do Dataproc. Otimize pipelines de ETL complexos para desempenho e custo em um ambiente controlado.

      Ambientes de ciência de dados e ML configuráveis

      Ciência de dados personalizada em grande escala

      Crie clusters do Dataproc criados para fins específicos com versões específicas do Spark, do Jupyter e das bibliotecas de ML necessárias para treinamento de modelos colaborativo em grande escala e análises avançadas. Integrar com a Vertex AI para MLOps.


      Ciência de dados personalizada em grande escala

      Crie clusters do Dataproc criados para fins específicos com versões específicas do Spark, do Jupyter e das bibliotecas de ML necessárias para treinamento de modelos colaborativo em grande escala e análises avançadas. Integrar com a Vertex AI para MLOps.


      Executar diversos mecanismos de análise de código aberto

      OSS flexível

      Implante clusters dedicados com o Trino para SQL interativo, o Flink para processamento de streaming avançado ou outros mecanismos especializados de código aberto com o Spark e o Hadoop, todos gerenciados pelo Dataproc.

      OSS flexível

      Implante clusters dedicados com o Trino para SQL interativo, o Flink para processamento de streaming avançado ou outros mecanismos especializados de código aberto com o Spark e o Hadoop, todos gerenciados pelo Dataproc.

      Gerar uma solução
      Qual problema você está tentando resolver?
      What you'll get:
      Guia explicativo
      Arquitetura de referência
      Soluções pré-criadas disponíveis
      Este serviço foi criado com a Vertex AI. Você precisa ter 18 anos ou mais para usá-lo. Não insira informações sensíveis, confidenciais ou pessoais.

      Preços

      Preços do Dataproc para clusters gerenciadosO Dataproc oferece preços de pagamento por uso. Otimize custos com escalonamento automático e VMs preemptivas. O nível premium do Compute Engine permite um Spark mais rápido com o Lightning Engine.

      Principais componentes:

      • Instâncias do Compute Engine (vCPU, memória)
      • Taxa de serviço do Dataproc (por vCPU-hora)
      • Discos permanentes


      Exemplo:

      Um cluster com 6 nós (1 principal + 5 workers) de 4 CPUs, cada um executado por 2 horas, custaria US$ 0,48. Cobrança do Dataproc = Nº de vCPUs * horas * preço do Dataproc = 24 * 2 * US$ 0,01 = US $0,48

      Preços do Dataproc para clusters gerenciados

      O Dataproc oferece preços de pagamento por uso. Otimize custos com escalonamento automático e VMs preemptivas. O nível premium do Compute Engine permite um Spark mais rápido com o Lightning Engine.

      Principais componentes:

      • Instâncias do Compute Engine (vCPU, memória)
      • Taxa de serviço do Dataproc (por vCPU-hora)
      • Discos permanentes


      Exemplo:

      Um cluster com 6 nós (1 principal + 5 workers) de 4 CPUs, cada um executado por 2 horas, custaria US$ 0,48. Cobrança do Dataproc = Nº de vCPUs * horas * preço do Dataproc = 24 * 2 * US$ 0,01 = US $0,48

      Calculadora de preços

      Estime seus custos mensais do Dataproc, incluindo preços e taxas específicos da região.

      Cota personalizada

      Fale com nossa equipe de vendas e receba uma cotação personalizada para sua organização.

      Comece hoje

      Crédito gratuito de US$ 300 para novos clientes

      Tem um projeto grande?

      Criar um cluster do Dataproc usando o console do Google Cloud.

      Usar o conector do Cloud Storage com o Apache Spark

      A Central de arquitetura fornece recursos de conteúdo sobre diversos assuntos e cenários de migração para ajudar você

      Dataproc
      Google Cloud