Crimson Tokenizer
Tokenizator BPE trenowany na korpusie polskich tekstów datasetu SpeakLeash
Kod źródłowy
https://github.com/dawidbartczak/crimson-tokenizer