NLP tooling / 2025
Crimson Tokenizer
Tokenizator BPE trenowany na korpusie polskich tekstów datasetu SpeakLeash.
Case study
Od problemu do działającego systemu.
Problem do rozwiązania
Modele językowe zaczynają się od danych i tokenizacji. Chciałem zrozumieć ten etap praktycznie.
Co zbudowałem
Tokenizator BPE trenowany na polskim korpusie tekstowym.
Architektura
Projekt skupia się na etapie przygotowania reprezentacji tekstu, który poprzedza trening modeli.
Moja rola
Przygotowanie eksperymentu i praca z mechaniką tokenizacji.
To są miejsca, gdzie projekt naprawdę testował myślenie.
- 01
Praca z korpusem tekstowym i polskim językiem.
- 02
Zrozumienie BPE jako mechanizmu, nie buzzwordu.
Rozumiem, że AI/ML to nie tylko gotowe API.
Projekt zbudowany ręcznie przed erą powszechnego AI-assisted codingu. Pokazuje samodzielne rozumienie problemu, debugowanie i dowożenie bez gotowych odpowiedzi z narzędzi AI.
Następny krok
Masz podobny problem do dowiezienia?
Napisz krótko, co chcesz zbudować. Najpierw uporządkuję problem, potem zaproponuję sensowną architekturę i pierwszy działający zakres.