> ...a high-throughput generation engine for running large language models with ...

rldjbpin on Feb 21, 2023 | parent | context | favorite | on: Running large language models like ChatGPT on a si...

> ...a high-throughput generation engine for running large language models with limited GPU memory (e.g., a 16GB T4 GPU or a 24GB RTX3090 gaming card!).

laughs in 6 gb vram and no tensor cores.