Extract dataset functionality for easy extensibility #360

alxkolm · 2023-08-26T13:27:08Z

Extract dataset functionality for easy extensibility

Summary of changes:

Added dataset.py with Dataset base class. It encapsulates downloading and iterating over examples in files. There are 3 methods download(), list_files(), examples_of() in the class
Download functionality moved from tinystories.py to Dataset
These functions now receive Dataset as argument: train_vocab(), pretokenize(), process_shard()
Pre-tokenized files now write to tokenized_{vocab_size} directories. Files tokenized by Llama2 tokenizer write to tokenized_llama2 directory.
Wrapped Tinystories dataset to TinyStories class in dataset.py
Added new SQLCreateContext from sql-create-context as example of extensibility.

To hold git diff as simple as possible, I have not renamed the main entry point file tinystories.py. But in future, it should be renamed to something like prepare.py.

train.py is not affected by this PR.

alexey.kolmakov added 5 commits August 24, 2023 23:37

Refactor datasets

f90609d

Merge branch 'master' into refactor_datasets

10833cd

Cleanup

4f466a1

Update doc strings

6d73405

Merge branch 'master' into refactor_datasets

5565cb3

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Extract dataset functionality for easy extensibility #360

Extract dataset functionality for easy extensibility #360

alxkolm commented Aug 26, 2023 •

edited

Extract dataset functionality for easy extensibility #360

Are you sure you want to change the base?

Extract dataset functionality for easy extensibility #360

Conversation

alxkolm commented Aug 26, 2023 • edited

Extract dataset functionality for easy extensibility

alxkolm commented Aug 26, 2023 •

edited