policy-gradient

This project uses LLMs to generate music from text by understanding prompts, creating lyrics, determining genre, and composing melodies. It harnesses LLM capabilities to create songs based on text inputs through a multi-step approach.

natural-language-processing deep-learning transformers deep-reinforcement-learning policy-gradient genre-classification seq-to-seq llms rlhf flan-t5 llama3

Updated May 21, 2024
Jupyter Notebook

CodeName-Detective / A2C-Exploring-OpenAI-Gym-Environments-and-Enhancing-Actor-Critic-Algorithms-for-Optimal-Performance

Star

This project provides a comprehensive understanding of reinforcement learning, focusing on Actor Critic Algorithms. It involves exploring the OpenAI Gym library, implementing the A2C algorithm from DeepMind's seminal paper, and enhancing the A2C algorithm for improved performance and stability.

reinforcement-learning deep-reinforcement-learning policy-gradient actor-critic a2c open-ai-gym

Updated May 21, 2024
Jupyter Notebook

Allenpandas / Reinforcement-Learning-Papers

Star

📚 List of Top-tier Conference Papers on Reinforcement Learning (RL)，including: NeurIPS, ICML, AAAI, IJCAI, AAMAS, ICLR, ICRA, etc.

reinforcement-learning deep-reinforcement-learning q-learning artificial-intelligence dqn policy-gradient imitation-learning aaai ijcai reinforcement-learning-papers hierarchical-reinforcement-learning icml multi-agent-reinforcement-learning neurips meta-reinforcement-learning offline-reinforcement-learning rl-papers reinforcement-learning-conferences reinforcement-learning-paper reinforcement-learning-conferences-papers

Updated May 21, 2024

MarcoMeter / episodic-transformer-memory-ppo

Star

Clean baseline implementation of PPO using an episodic TransformerXL memory

deep-reinforcement-learning pytorch transformer policy-gradient pomdp actor-critic proximal-policy-optimization ppo on-policy episodic-memory transformer-xl gtrxl trxl gated-transformer-xl memory-gym

Updated May 13, 2024
Python

markhliu / AlphaGoSimplified

Star

Book repository for AlphaGo Simplified (CRC Press 2024). Implement ideas behind Deep Blue (rule-based AI) and AlphaGo (rule-based AI + Deep Learning) in three simple games: Last Coin Standing, Tic Tac Toe, and Connect Four.

machine-learning deep-neural-networks reinforcement-learning ai deep-learning deep-reinforcement-learning policy-gradient alphago actor-critic rule-based alphazero

Updated May 13, 2024
Jupyter Notebook

salesforce / MultiHopKG

Star

Multi-hop knowledge graph reasoning learned via policy gradient with reward shaping and action dropout

reinforcement-learning pytorch knowledge-graph policy-gradient reward-shaping action-dropout multi-hop-reasoning

Updated May 3, 2024
Jupyter Notebook

VinF / deer

Star

DEEp Reinforcement learning framework

deep-reinforcement-learning q-learning policy-gradient

Updated May 1, 2024
Python

MarcoMeter / recurrent-ppo-truncated-bptt

Star

Baseline implementation of recurrent PPO using truncated BPTT

deep-learning deep-reinforcement-learning pytorch recurrent-neural-networks lstm gru policy-gradient recurrence recurrent pomdp actor-critic truncated proximal-policy-optimization ppo on-policy bptt

Updated Apr 28, 2024
Jupyter Notebook

jihoonerd / rl-maze

Star

Simple maze solver by reinforcement learning

tutorial reinforcement-learning maze q-learning policy-gradient sarsa reinforce

Updated Apr 27, 2024
Python

DeNA / HandyRL

Star

HandyRL is a handy and simple framework based on Python and PyTorch for distributed reinforcement learning that is applicable to your own environments.

machine-learning games reinforcement-learning deep-learning pytorch policy-gradient distributed-training