JetStream is a throughput and memory optimized engine for LLM inference on XLA devices.

About

JetStream is a throughput and memory optimized engine for LLM inference on XLA devices, starting with TPUs (and GPUs in future -- PRs welcome).

JetStream Engine Implementation

Currently, there are two reference engine implementations available -- one for Jax models and another for Pytorch models.

Jax

Pytorch

Documentation

JetStream Standalone Local Setup

Getting Started

Setup

pip install -r requirements.txt

Run local server & Testing

Use the following commands to run a server locally:

# Start a server
python -m jetstream.core.implementations.mock.server

# Test local mock server
python -m jetstream.tools.requester

# Load test local mock server
python -m jetstream.tools.load_tester

Test core modules

# Test JetStream core orchestrator
python -m jetstream.tests.core.test_orchestrator

# Test JetStream core server library
python -m jetstream.tests.core.test_server

# Test mock JetStream engine implementation
python -m jetstream.tests.engine.test_mock_engine

# Test mock JetStream token utils
python -m jetstream.tests.engine.test_utils

Name		Name	Last commit message	Last commit date
Latest commit History 72 Commits
.github		.github
benchmarks		benchmarks
docs		docs
jetstream		jetstream
.gitignore		.gitignore
AUTHORS		AUTHORS
CONTRIBUTING.md		CONTRIBUTING.md
LICENSE		LICENSE
MANIFEST.in		MANIFEST.in
README.md		README.md
pylintrc		pylintrc
requirements.in		requirements.in
requirements.txt		requirements.txt
setup.py		setup.py

License

google/JetStream

Folders and files

Latest commit

History

Repository files navigation

JetStream is a throughput and memory optimized engine for LLM inference on XLA devices.

About

JetStream Engine Implementation

Jax

Pytorch

Documentation

JetStream Standalone Local Setup

Getting Started

Setup

Run local server & Testing

Test core modules

About

Topics

Resources

License

Code of conduct

Security policy

Stars

Watchers

Forks

Languages