O Google Cloud Dataproc pode proporcionar uma economia de 18% a 60% em comparação com outras alternativas do Hadoop e do Spark baseadas na nuvem. Acesse o relatório ESG.
Execute clusters do Apache Spark, Hadoop e mais de 30 frameworks de código aberto totalmente gerenciados com facilidade e controle. Acelere o Spark no Compute Engine com o Lightning Engine e faça a integração com a lakehouse aberta do Google Cloud.
Apache Spark é uma marca registrada da Apache Software Foundation.
Recursos
Além do Spark, o Dataproc oferece serviços totalmente gerenciados para a pilha completa do Apache Hadoop (MapReduce, HDFS, YARN), além do Flink, Trino, Hive e mais de 30 outras ferramentas de código aberto. Para oferecer suporte a isso, o Dataproc se integra ao Dataproc Metastore, um serviço totalmente gerenciado do Hive Metastore, simplificando o gerenciamento de metadados para seus componentes tradicionais de data lake. Modernize cargas de trabalho tradicionais de data lake ou crie novos aplicativos com seus mecanismos preferidos.
Execute cargas de trabalho exigentes do Spark com o controle de um cluster gerenciado do Dataproc, agora com a aceleração de 3,6x* na velocidade de consulta pelo Lightning Engine,** em prévia. Tenha ganhos significativos de desempenho para operações do Spark SQL e DataFrame. Configure os ambientes do Spark de acordo com suas necessidades, escolhendo versões e bibliotecas.
* As consultas são derivadas do padrão TPC-DS e do padrão TPC-H e, portanto, não podem ser comparadas aos resultados publicados do padrão TPC-DS e do padrão TPC-H, porque essas execuções não atendem a todos os requisitos da especificação do padrão TPC-DS e do padrão TPC-H.
**Disponível para o Dataproc no nível Premium do Compute Engine.
Personalize os clusters do Dataproc com uma ampla variedade de tipos de máquina (incluindo GPUs), VMs preemptivas, opções de disco, políticas de autoescalonamento, ações de inicialização, contêiner/imagens e componentes opcionais. Use recursos como modelos de fluxo de trabalho para orquestrar jobs complexos e gerenciar clusters pelo console, gcloud, API ou bibliotecas de cliente. Tenha uma visibilidade completa da integridade e do desempenho do cluster com a integração ao Cloud Monitoring, que oferece métricas abrangentes, painéis e recursos de alerta.
Os clusters do Dataproc se integram de maneira nativa ao BigLake Metastore, permitindo processar dados armazenados em formatos abertos, como o Apache Iceberg no Cloud Storage. Para necessidades tradicionais de metadados com base no Hive, há uma integração perfeita com o serviço gerenciado Metastore do Dataproc. Use o Dataplex Universal Catalog para descoberta, linhagem e governança unificadas nos seus recursos de lakehouse. Amplie seus aplicativos de dados conectando o Dataproc ao BigQuery, Vertex AI, Spanner, Pub/Sub e Data Fusion, criando soluções completas e eficientes.
Aproveite a segurança robusta do Google Cloud. Configure o Kerberos, gerencie o acesso com o IAM, aplique políticas de rede com o VPC Service Controls e use o CMEK. Integre com o Dataplex Universal Catalog para gerenciamento centralizado de políticas e ative o controle de acesso refinado com o BigLake.
Use ferramentas e IDEs conhecidas, como o Jupyter e o VS Code, em laptops para conectar clusters do Dataproc. Integre o Dataproc ao Vertex AI Workbench para desenvolvimento interativo do Spark em clusters e crie pipelines de IA/ML completos com a Vertex AI.
Usos comuns
Modernize seu data lake
Migrar cargas de trabalho do Hadoop e do Spark no local para a nuvem com facilidade. Use o Dataproc para executar jobs do MapReduce, Hive, Pig e Spark em dados no Cloud Storage, integrados ao Dataproc Metastore e governados pelo Dataplex Universal Catalog.
Modernize seu data lake
Migrar cargas de trabalho do Hadoop e do Spark no local para a nuvem com facilidade. Use o Dataproc para executar jobs do MapReduce, Hive, Pig e Spark em dados no Cloud Storage, integrados ao Dataproc Metastore e governados pelo Dataplex Universal Catalog.
Processamento em lote corporativo
Processe e transforme conjuntos de dados enormes com eficiência usando o Spark, acelerado pelo Lightning Engine com o Dataproc no Compute Engine, ou o MapReduce em clusters personalizáveis do Dataproc. Otimize pipelines de ETL complexos para desempenho e custo em um ambiente controlado.
Processamento em lote corporativo
Processe e transforme conjuntos de dados enormes com eficiência usando o Spark, acelerado pelo Lightning Engine com o Dataproc no Compute Engine, ou o MapReduce em clusters personalizáveis do Dataproc. Otimize pipelines de ETL complexos para desempenho e custo em um ambiente controlado.
Ciência de dados personalizada em grande escala
Crie clusters do Dataproc criados para fins específicos com versões específicas do Spark, do Jupyter e das bibliotecas de ML necessárias para treinamento de modelos colaborativo em grande escala e análises avançadas. Integrar com a Vertex AI para MLOps.
Ciência de dados personalizada em grande escala
Crie clusters do Dataproc criados para fins específicos com versões específicas do Spark, do Jupyter e das bibliotecas de ML necessárias para treinamento de modelos colaborativo em grande escala e análises avançadas. Integrar com a Vertex AI para MLOps.
OSS flexível
Implante clusters dedicados com o Trino para SQL interativo, o Flink para processamento de streaming avançado ou outros mecanismos especializados de código aberto com o Spark e o Hadoop, todos gerenciados pelo Dataproc.
OSS flexível
Implante clusters dedicados com o Trino para SQL interativo, o Flink para processamento de streaming avançado ou outros mecanismos especializados de código aberto com o Spark e o Hadoop, todos gerenciados pelo Dataproc.
Preços
Preços do Dataproc para clusters gerenciados | O Dataproc oferece preços de pagamento por uso. Otimize custos com escalonamento automático e VMs preemptivas. O nível premium do Compute Engine permite um Spark mais rápido com o Lightning Engine. |
---|---|
Principais componentes: |
|
Exemplo: | Um cluster com 6 nós (1 principal + 5 workers) de 4 CPUs, cada um executado por 2 horas, custaria US$ 0,48. Cobrança do Dataproc = Nº de vCPUs * horas * preço do Dataproc = 24 * 2 * US$ 0,01 = US $0,48 |
Preços do Dataproc para clusters gerenciados
O Dataproc oferece preços de pagamento por uso. Otimize custos com escalonamento automático e VMs preemptivas. O nível premium do Compute Engine permite um Spark mais rápido com o Lightning Engine.
Principais componentes:
Exemplo:
Um cluster com 6 nós (1 principal + 5 workers) de 4 CPUs, cada um executado por 2 horas, custaria US$ 0,48. Cobrança do Dataproc = Nº de vCPUs * horas * preço do Dataproc = 24 * 2 * US$ 0,01 = US $0,48