Repositorio con ejercicios de variables compartidas recolectados de diversos sitios
Ejemplo de código en Scala que puede encontrarse en la documentación oficial de Spark con una breve explicación sobre qué son los acumuladores
Ejemplos de variabls broadcast en RDDs y broadcast join para Data Frames basados en ejemplos de los sitios:
- https://books.japila.pl/apache-spark-internals/apache-spark-internals/2.4.4/spark-broadcast.html
- https://spark.apache.org/docs/2.2.0/rdd-programming-guide.html#broadcast-variables
- https://blog.knoldus.com/broadcast-variables-in-spark-how-and-when-to-use-them/
- http://www.prathapkudupublog.com/2018/06/accumulators-and-broadcast-variables-in.html
- https://vishnuviswanath.com/spark_rdd_part2.html
Recomiendo en particular como recurso de enseñanza las imágenes en el sitio https://vishnuviswanath.com/spark_rdd_part2.html que son muy claras y explicativas. Estas pueden agregrse a los notebooks que se encuentran en este repositorio.