Apache Spark

Autor: Eugene Taylor
Data De Criação: 8 Agosto 2021
Data De Atualização: 1 Julho 2024
Anonim
Что такое Apache Spark
Vídeo: Что такое Apache Spark

Contente

Definição - O que significa o Apache Spark?

O Apache Spark é um programa de código aberto usado para análise de dados. Faz parte de um conjunto maior de ferramentas, incluindo o Apache Hadoop e outros recursos de código aberto para a comunidade analítica de hoje.


Especialistas descrevem esse software de código aberto relativamente novo como uma ferramenta de computação em cluster de análise de dados. Ele pode ser usado com o HDFS (Hadoop Distributed File System), que é um componente específico do Hadoop que facilita o manuseio complicado de arquivos.

Alguns profissionais de TI descrevem o uso do Apache Spark como um possível substituto para o componente Apache Hadoop MapReduce. O MapReduce também é uma ferramenta de clustering que ajuda os desenvolvedores a processar grandes conjuntos de dados. Aqueles que entendem o design do Apache Spark apontam que ele pode ser muitas vezes mais rápido que o MapReduce, em algumas situações.

Uma introdução ao Microsoft Azure e Microsoft Cloud | Neste guia, você aprenderá sobre o que é a computação em nuvem e como o Microsoft Azure pode ajudá-lo a migrar e administrar seus negócios a partir da nuvem.

Techopedia explica Apache Spark

Os relatórios sobre o uso moderno do Apache Spark mostram que as empresas o estão usando de várias maneiras. Um uso comum é agregar dados e estruturá-los de maneiras mais refinadas. O Apache Spark também pode ser útil no trabalho de aprendizado de máquina de análise ou na classificação de dados.


Normalmente, as organizações enfrentam o desafio de refinar os dados de maneira eficiente e um pouco automatizada, onde o Apache Spark pode ser usado para esse tipo de tarefa. Alguns também sugerem que o uso do Spark pode ajudar a fornecer acesso a quem tem menos conhecimento sobre programação e deseja se envolver no manuseio de análises.

O Apache Spark inclui APIs para Python e linguagens de software relacionadas.