rdd

Here are 188 public repositories matching this topic...

razamehar / Financial-Stock-Analysis-and-Clustering

Analyzed 157 US Energy stocks (Jan-Dec '23), identified Bullish/Bearish trends and risk categories. Used KMeans, Hierarchical, Spectral Clustering, revealing balanced returns and low volatility. Integrated data with Kafka for seamless subscriptions.

python kafka-producer financial-analysis rdd kmeans-clustering hierarchical-clustering stock-analysis

Updated May 16, 2024
Jupyter Notebook

LuisFalva / ophelia

Star

Ophelia a PySpark analytics wrapper.

spark spark-streaming dask dataframe rdd spark-mllib spark-ml ophelia ophelia-spark

Updated May 14, 2024
Python

zouzias / spark-lucenerdd

Star

Spark RDD with Lucene's query and entity linkage capabilities

spark record-linkage lucene hacktoberfest deduplication rdd linkage entity-linking spatial-search

Updated May 6, 2024
Scala

AdammGreen / NLP-Donald-Trump-Tweet-Analysis

Star

Here I do a sentiment analysis and various other analyses on Donald Trump's tweets around his 2016 election. Some methods contain NLP.

nlp natural-language-processing spark tweets pyspark rdd

Updated Mar 3, 2024
Jupyter Notebook

marcosgambeta / sqlrddpp

Star

SQLRDD for Harbour++ and Harbour

mysql sql odbc harbour postgresql firebird sqlserver rdd

Updated Mar 1, 2024
C

adnanrahin / NFL-Big-Data-Bowl-2022

Star

The 2022 Big Data Bowl data contains Next Gen Stats player tracking, play, game, player, and PFF scouting data for all 2018-2020 Special Teams play. Here, you'll find a summary of each data set in the 2022 Data Bowl, a list of key variables to join on, and a description of each variable.

scala big-data spark rdd spark-sql big-data-processing

Updated Feb 26, 2024
Scala

SRVivek1 / pyspark-rdd-dataframe-examples

Star

PySpark RDD and DataFrame Examples

python aws aws-lambda aws-s3 python-script pyspark aws-ec2 rdd aws-redshift aws-db-instance python-lambda aws-emr-clusters

Updated Feb 18, 2024
Python

microsoft / Mobius

Star

C# and F# language binding and extensions to Apache Spark

streaming spark apache-spark csharp fsharp bigdata dataset spark-streaming eventhubs mapreduce dataframe rdd dstream mobius kafka-streaming near-real-time

Updated Jan 31, 2024
C#

ramnath-subramanian18 / FriendRecommendationWithMutualFriends-PySparkRDD

Star

Backend code for a Friend Recommendation system using PySpark RDD, leveraging mutual friend connections in a dataset.

backend pyspark rdd friend-recommendation mutual-friends

Updated Jan 27, 2024
Jupyter Notebook

practicalli / doom-emacs

Star

Guide to Clojure REPL Driven Development with Emacs Doom

clojure emacs rdd repl-driven-development emacs-doom

Updated Jan 21, 2024
HTML

emsquared2 / Advanced-DB-NTUA

Star

Project-Assignment for Advanced DB Topics course at ECE NTUA

sql spark pyspark hdfs dataframe rdd

Updated Jan 17, 2024
Python

adnanrahin / spark-rdd-df-comparison-emr

Star

java aws scala spark dataframe rdd emr-cluster

Updated Dec 23, 2023
Scala

RahulGupta16 / Pyspark-Theory-and-Code-Basics

Star

Pyspark serves as a Python interface to Apache Spark, enabling the execution of Python and SQL-like instructions for the manipulation and analysis of data within a distributed processing framework.

sql apache-spark python3 pyspark data-engineering sparksql rdd spark-dataframes

Updated Dec 12, 2023
Jupyter Notebook

rajansahu713 / All-in-one-Python

Star

All in one

audio mysql python aws instagram google aws-s3 qrcode postgresql s3 oracle pyspark mysql-database instagram-api pypdf2 rdd audio-processing

Updated Dec 9, 2023
Python

gabrielcaser / rdd_when_science_strikes_back

Star

We manage employer-employee administrative data and elections data to estimate the causal impact of electing a STEM candidate on epidemiological outcomes

causal-inference rdd

Updated Nov 28, 2023
Jupyter Notebook

nekcht / apache-spark-evaluation

Star

Evaluates the execution time differences between RDD (Resilient Distributed Datasets) and DataFrame data structures in Apache Spark. Also takes into account the file format being used, such as CSV or Parquet.

benchmarking apache-spark hadoop evaluation pyspark parquet dataframe rdd rdd-vs-df csv-vs-parquet spark-evaluation

Updated Nov 22, 2023
Python

MouhtaramSoufiane / SparkRDD

Star

spark rdd

Updated Nov 19, 2023
Java

el-moudni-hicham / bigdata-spark-rdd

Star

This repository contains a collection of Big Data projects implemented using Apache Spark and RDDs

java spark bigdata rdd

Updated Nov 17, 2023
Java

AxelPreitiT / apache-spark-demo

Star

Apache Spark Demo

python apache-spark distributed-computing rdd

Updated Nov 15, 2023
Python

Zain970 / Py-Spark-Programming

Star

Solved various big data problems using pySpark . Variety of Tranformations and Actions are applied on RDDs and Data-Frames to extract different insights from various Data-Sets which are very huge in file ranging in GBs.

bigdata transformations pyspark dataframe rdd

Updated Oct 26, 2023
Python

Improve this page

Add a description, image, and links to the rdd topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the rdd topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

rdd

Here are 188 public repositories matching this topic...

razamehar / Financial-Stock-Analysis-and-Clustering

LuisFalva / ophelia

zouzias / spark-lucenerdd

AdammGreen / NLP-Donald-Trump-Tweet-Analysis

marcosgambeta / sqlrddpp

adnanrahin / NFL-Big-Data-Bowl-2022

SRVivek1 / pyspark-rdd-dataframe-examples

microsoft / Mobius

ramnath-subramanian18 / FriendRecommendationWithMutualFriends-PySparkRDD

practicalli / doom-emacs

emsquared2 / Advanced-DB-NTUA

adnanrahin / spark-rdd-df-comparison-emr

RahulGupta16 / Pyspark-Theory-and-Code-Basics

rajansahu713 / All-in-one-Python

gabrielcaser / rdd_when_science_strikes_back

nekcht / apache-spark-evaluation

MouhtaramSoufiane / SparkRDD

el-moudni-hicham / bigdata-spark-rdd

AxelPreitiT / apache-spark-demo

Zain970 / Py-Spark-Programming

Improve this page

Add this topic to your repo