O Google Cloud Dataproc pode proporcionar uma economia de 18% a 60% em comparação com outras alternativas do Hadoop e do Spark baseadas na nuvem. Acesse o relatório ESG.

Dataproc

Uma plataforma gerenciada para Spark, Hadoop e análise de dados de código aberto

Execute clusters do Apache Spark, Hadoop e mais de 30 frameworks de código aberto totalmente gerenciados com facilidade e controle. Acelere o Spark no Compute Engine com o Lightning Engine e faça a integração com a lakehouse aberta do Google Cloud.

Apache Spark é uma marca registrada da Apache Software Foundation.

Recursos

Suporte robusto ao ecossistema Hadoop

Além do Spark, o Dataproc oferece serviços totalmente gerenciados para a pilha completa do Apache Hadoop (MapReduce, HDFS, YARN), além do Flink, Trino, Hive e mais de 30 outras ferramentas de código aberto. Para oferecer suporte a isso, o Dataproc se integra ao Dataproc Metastore, um serviço totalmente gerenciado do Hive Metastore, simplificando o gerenciamento de metadados para seus componentes tradicionais de data lake. Modernize cargas de trabalho tradicionais de data lake ou crie novos aplicativos com seus mecanismos preferidos.

Spark gerenciado com o Lightning Engine

Execute cargas de trabalho exigentes do Spark com o controle de um cluster gerenciado do Dataproc, agora com a aceleração de 3,6x* na velocidade de consulta pelo Lightning Engine,** em prévia. Tenha ganhos significativos de desempenho para operações do Spark SQL e DataFrame. Configure os ambientes do Spark de acordo com suas necessidades, escolhendo versões e bibliotecas.

* As consultas são derivadas do padrão TPC-DS e do padrão TPC-H e, portanto, não podem ser comparadas aos resultados publicados do padrão TPC-DS e do padrão TPC-H, porque essas execuções não atendem a todos os requisitos da especificação do padrão TPC-DS e do padrão TPC-H.

**Disponível para o Dataproc no nível Premium do Compute Engine.

Configuração e gerenciamento flexíveis de clusters

Personalize os clusters do Dataproc com uma ampla variedade de tipos de máquina (incluindo GPUs), VMs preemptivas, opções de disco, políticas de autoescalonamento, ações de inicialização, contêiner/imagens e componentes opcionais. Use recursos como modelos de fluxo de trabalho para orquestrar jobs complexos e gerenciar clusters pelo console, gcloud, API ou bibliotecas de cliente. Tenha uma visibilidade completa da integridade e do desempenho do cluster com a integração ao Cloud Monitoring, que oferece métricas abrangentes, painéis e recursos de alerta.

Conectividade aberta do lakehouse

Os clusters do Dataproc se integram de maneira nativa ao BigLake Metastore, permitindo processar dados armazenados em formatos abertos, como o Apache Iceberg no Cloud Storage. Para necessidades tradicionais de metadados com base no Hive, há uma integração perfeita com o serviço gerenciado Metastore do Dataproc. Use o Dataplex Universal Catalog para descoberta, linhagem e governança unificadas nos seus recursos de lakehouse. Amplie seus aplicativos de dados conectando o Dataproc ao BigQuery, Vertex AI, Spanner, Pub/Sub e Data Fusion, criando soluções completas e eficientes.

Proteja seu processamento de dados de código aberto

Aproveite a segurança robusta do Google Cloud. Configure o Kerberos, gerencie o acesso com o IAM, aplique políticas de rede com o VPC Service Controls e use o CMEK. Integre com o Dataplex Universal Catalog para gerenciamento centralizado de políticas e ative o controle de acesso refinado com o BigLake.

Capacite engenheiros e cientistas de dados

Use ferramentas e IDEs conhecidas, como o Jupyter e o VS Code, em laptops para conectar clusters do Dataproc. Integre o Dataproc ao Vertex AI Workbench para desenvolvimento interativo do Spark em clusters e crie pipelines de IA/ML completos com a Vertex AI.

Como funciona

Operações de cluster simplificadas para análises avançadas

Usos comuns

Modernização de data lake e migração do Hadoop

Modernize seu data lake

Migrar cargas de trabalho do Hadoop e do Spark no local para a nuvem com facilidade. Use o Dataproc para executar jobs do MapReduce, Hive, Pig e Spark em dados no Cloud Storage, integrados ao Dataproc Metastore e governados pelo Dataplex Universal Catalog.

Tutoriais, guias de início rápido e laboratórios

Modernize seu data lake

Migrar cargas de trabalho do Hadoop e do Spark no local para a nuvem com facilidade. Use o Dataproc para executar jobs do MapReduce, Hive, Pig e Spark em dados no Cloud Storage, integrados ao Dataproc Metastore e governados pelo Dataplex Universal Catalog.

ETL em lote em grande escala com o Spark e o Hadoop

Processamento em lote corporativo

Processe e transforme conjuntos de dados enormes com eficiência usando o Spark, acelerado pelo Lightning Engine com o Dataproc no Compute Engine, ou o MapReduce em clusters personalizáveis do Dataproc. Otimize pipelines de ETL complexos para desempenho e custo em um ambiente controlado.

Tutoriais, guias de início rápido e laboratórios

Processamento em lote corporativo

Processe e transforme conjuntos de dados enormes com eficiência usando o Spark, acelerado pelo Lightning Engine com o Dataproc no Compute Engine, ou o MapReduce em clusters personalizáveis do Dataproc. Otimize pipelines de ETL complexos para desempenho e custo em um ambiente controlado.

Ambientes de ciência de dados e ML configuráveis

Ciência de dados personalizada em grande escala

Crie clusters do Dataproc criados para fins específicos com versões específicas do Spark, do Jupyter e das bibliotecas de ML necessárias para treinamento de modelos colaborativo em grande escala e análises avançadas. Integrar com a Vertex AI para MLOps.

Receitas de IA/ML para o Dataproc

Tutoriais, guias de início rápido e laboratórios

Ciência de dados personalizada em grande escala

Crie clusters do Dataproc criados para fins específicos com versões específicas do Spark, do Jupyter e das bibliotecas de ML necessárias para treinamento de modelos colaborativo em grande escala e análises avançadas. Integrar com a Vertex AI para MLOps.

Receitas de IA/ML para o Dataproc

Executar diversos mecanismos de análise de código aberto

OSS flexível

Implante clusters dedicados com o Trino para SQL interativo, o Flink para processamento de streaming avançado ou outros mecanismos especializados de código aberto com o Spark e o Hadoop, todos gerenciados pelo Dataproc.

Dataproc encontra o TensorFlow no YARN

Tutoriais, guias de início rápido e laboratórios

OSS flexível

Implante clusters dedicados com o Trino para SQL interativo, o Flink para processamento de streaming avançado ou outros mecanismos especializados de código aberto com o Spark e o Hadoop, todos gerenciados pelo Dataproc.

Dataproc encontra o TensorFlow no YARN

Gerar uma solução

Qual problema você está tentando resolver?

What you'll get:

Guia explicativo

Arquitetura de referência

Soluções pré-criadas disponíveis

Este serviço foi criado com a Vertex AI. Você precisa ter 18 anos ou mais para usá-lo. Não insira informações sensíveis, confidenciais ou pessoais.

Preços

Preços do Dataproc para clusters gerenciados	O Dataproc oferece preços de pagamento por uso. Otimize custos com escalonamento automático e VMs preemptivas. O nível premium do Compute Engine permite um Spark mais rápido com o Lightning Engine.
Principais componentes:	Instâncias do Compute Engine (vCPU, memória) Taxa de serviço do Dataproc (por vCPU-hora) Discos permanentes
Exemplo:	Um cluster com 6 nós (1 principal + 5 workers) de 4 CPUs, cada um executado por 2 horas, custaria US$ 0,48. Cobrança do Dataproc = Nº de vCPUs * horas * preço do Dataproc = 24 * 2 * US$ 0,01 = US $0,48

Confira os preços detalhados do Dataproc

Preços do Dataproc para clusters gerenciados

O Dataproc oferece preços de pagamento por uso. Otimize custos com escalonamento automático e VMs preemptivas. O nível premium do Compute Engine permite um Spark mais rápido com o Lightning Engine.

Principais componentes:

Instâncias do Compute Engine (vCPU, memória)
Taxa de serviço do Dataproc (por vCPU-hora)
Discos permanentes

Exemplo:

Um cluster com 6 nós (1 principal + 5 workers) de 4 CPUs, cada um executado por 2 horas, custaria US$ 0,48. Cobrança do Dataproc = Nº de vCPUs * horas * preço do Dataproc = 24 * 2 * US$ 0,01 = US $0,48

Confira os preços detalhados do Dataproc

Calculadora de preços

Estime seus custos mensais do Dataproc, incluindo preços e taxas específicos da região.

Cota personalizada

Fale com nossa equipe de vendas e receba uma cotação personalizada para sua organização.

Dataproc

Uma plataforma gerenciada para Spark, Hadoop e análise de dados de código aberto

Características do produto:

Suporte robusto ao ecossistema Hadoop

Spark gerenciado com o Lightning Engine

Configuração e gerenciamento flexíveis de clusters

Conectividade aberta do lakehouse

Proteja seu processamento de dados de código aberto

Capacite engenheiros e cientistas de dados

Operações de cluster simplificadas para análises avançadas

Modernização de data lake e migração do Hadoop

Modernize seu data lake

Tutoriais, guias de início rápido e laboratórios

Modernize seu data lake

ETL em lote em grande escala com o Spark e o Hadoop

Processamento em lote corporativo

Tutoriais, guias de início rápido e laboratórios

Processamento em lote corporativo

Ambientes de ciência de dados e ML configuráveis

Ciência de dados personalizada em grande escala

Tutoriais, guias de início rápido e laboratórios

Ciência de dados personalizada em grande escala

Executar diversos mecanismos de análise de código aberto

OSS flexível

Tutoriais, guias de início rápido e laboratórios

OSS flexível

Calculadora de preços

Cota personalizada

Comece hoje

Crédito gratuito de US$ 300 para novos clientes

Tem um projeto grande?

Criar um cluster do Dataproc usando o console do Google Cloud.

Usar o conector do Cloud Storage com o Apache Spark

A Central de arquitetura fornece recursos de conteúdo sobre diversos assuntos e cenários de migração para ajudar você