GitHub - jim113/Advanced-Database-Topics-NTUA: Advanced Topics Databases, NTUA 2019-2020

Advanced Databases NTUA

Map Reduce approach of the k-means algorithm.
Data taken from HDFS file.
Data contain trip records from all trips completed in yellow taxis in NYC from 1/2015 to 6/2015.
Algorithm returns top five central points' coordinates.

How to run

Install pyspark

pip3 install pyspark

Upload data in Hadoop Distributed File System (HDFS)

hadoop fs -put ./yellow_tripdata_1m.csv hdfs://master:9000/yellow_tripdata_1m.csv

Submit task in Spark environment

spark-submit kmeans_with_map_reduce.py

Get Results to Local File

hadoop fs -getmerge hdfs://master:9000/kmeans_with_map_reduce.results ./kmeans_with_map_reduce.results

Access Results

cat kmeans_with_map_reduce.results

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
logs		logs
README.md		README.md
kmeans_with_map_reduce.py		kmeans_with_map_reduce.py
report_greek.pdf		report_greek.pdf
results		results
spark-user-org.apache.spark.deploy.master.Master-1-master.out		spark-user-org.apache.spark.deploy.master.Master-1-master.out

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

logs

logs

README.md

README.md

kmeans_with_map_reduce.py

kmeans_with_map_reduce.py

report_greek.pdf

report_greek.pdf

results

results

spark-user-org.apache.spark.deploy.master.Master-1-master.out

spark-user-org.apache.spark.deploy.master.Master-1-master.out

Repository files navigation

Advanced Databases NTUA

How to run

About

Releases

Packages

Languages

jim113/Advanced-Database-Topics-NTUA

Folders and files

Latest commit

History

Repository files navigation

Advanced Databases NTUA

How to run

About

Topics

Resources

Stars

Watchers

Forks

Languages