Spark clustering algorithms

Implemntation of DBSCAN and K-means clustering algorithms in Scala using Spark framework. Algorithms deal only with two dimensional (x and y) data.

DBSCAN

Program arguments: <input_file> <min_points_in_cluster> <epsilon>

KMeans

Program arguments: <input_file> <number_of_clusters> <converge_distance>

Dataset

Sample dataset file is included - data.txt.

Running

When launching on a cluster refer to Spak official documentation.
In order to run on local machine use -Dspark.master=local VM option.

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
src/ee/ut/cs		src/ee/ut/cs
LICENCE		LICENCE
README.md		README.md
data.txt		data.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

src/ee/ut/cs

src/ee/ut/cs

LICENCE

LICENCE

README.md

README.md

data.txt

data.txt

Repository files navigation

Spark clustering algorithms

DBSCAN

KMeans

Dataset

Running

About

Releases

Packages

Languages

License

timasjov/scala-spark-clustering

Folders and files

Latest commit

History

Repository files navigation

Spark clustering algorithms

DBSCAN

KMeans

Dataset

Running

About

Topics

Resources

License

Stars

Watchers

Forks

Languages