Datenanalyse mit Apache Spark

Dieses Modul erstellt ein Spark-Cluster zur Analyse von Daten.

Lokal ausführen:

docker-compose up

Master

docker inspect daw-spark-spark-1 | grep "IPAddress"

Beispiele in Python

from pyspark.sql import SparkSession
spark = SparkSession.Builder().master('spark://172.18.0.3:7077').appName("SparkByExamples.com").getOrCreate()
data_list = ["a", "b", "c", "d", "e", "f", "g", "h"]
list_rdd = spark.sparkContext.parallelize(data_list)
list_rdd.first()

Was ist Spark?

Apache Spark ist ein Big Data Datenanalyse Framework. Im unterschied zu Bibliotheken wie Pandas ermöglicht Spark die Analyse von Daten in einem Cluster. Die Benutzung unterscheidet sich jedoch kaum von Pandas.

Forken

Die GitPod-URL muss in der README.md angepasst werden.

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
.gitpod.yml		.gitpod.yml
README.md		README.md
docker-compose.yml		docker-compose.yml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.gitpod.yml

.gitpod.yml

README.md

README.md

docker-compose.yml

docker-compose.yml

Repository files navigation

Datenanalyse mit Apache Spark

Master

Beispiele in Python

Was ist Spark?

Forken

About

Releases

Packages

b-oern/daw-spark

Folders and files

Latest commit

History

Repository files navigation

Datenanalyse mit Apache Spark

Master

Beispiele in Python

Was ist Spark?

Forken

About

Topics

Resources

Stars

Watchers

Forks