Clustering Algorithms

3 clustering algorithms implemented and tested on 4 datasets.

Parallel Implementation of K Means on Hadoop Streaming.

1. K-Means Clustering

2. Hierarchical Agglomerative Clustering

3. Density Based Clustering

4. Parallel K-Means (Implemented using Hadoop Streaming)

Test Datasets

Dataset	Objects	Number of Clusters
cho	386	5
iyer	517	10
demo-dataset-1	150	3
demo-dataset-2	6	2

Dataset Format

Each row represents a gene:

First column is gene_id.
Second column is the ground truth cluster. "-1" represents outliers.
Rest of the columns represent gene's expression values (attributes).

Name		Name	Last commit message	Last commit date
Latest commit History 40 Commits
code		code
data		data
lib		lib
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

code

code

data

data

lib

lib

.gitignore

.gitignore

LICENSE

LICENSE

README.md

README.md

Repository files navigation

Clustering Algorithms

1. K-Means Clustering

2. Hierarchical Agglomerative Clustering

3. Density Based Clustering

4. Parallel K-Means (Implemented using Hadoop Streaming)

Test Datasets

Dataset Format

About

Releases

Packages

Contributors 2

Languages

License

amitthere/clustering-algorithms

Folders and files

Latest commit

History

Repository files navigation

Clustering Algorithms

1. K-Means Clustering

2. Hierarchical Agglomerative Clustering

3. Density Based Clustering

4. Parallel K-Means (Implemented using Hadoop Streaming)

Test Datasets

Dataset Format

About

Topics

Resources

License

Stars

Watchers

Forks

Languages