Pipeline ML / 2025
Paragon Pipeline
Seria modeli i algorytmów do odczytu, klasyfikacji oraz ekstrakcji informacji z polskich paragonów.
Case study
Od problemu do działającego systemu.
Problem do rozwiązania
Paragon to trudny dokument: ma nieregularne formatowanie, skróty, szumy OCR i dane, których nie da się wygodnie parsować prostymi regexami.
Co zbudowałem
Zbudowałem koncepcję pipeline'u: ParagonOCR odczytuje linie, ParagonNER klasyfikuje je, a ParagonPIE wydobywa informacje produktowe.
Architektura
Pipeline rozbija problem na mniejsze etapy: obraz → linie tekstu → klasyfikacja linii → filtrowanie → ekstrakcja informacji.
Moja rola
Samodzielne badanie problemu, eksperymenty z modelami, projekt etapów pipeline'u i dokumentowanie zależności między repozytoriami.
To są miejsca, gdzie projekt naprawdę testował myślenie.
- 01
Podział złożonego problemu ML na mierzalne etapy.
- 02
Praca z polskim językiem, skrótami i formatem paragonów.
- 03
Myślenie o całym systemie, nie tylko pojedynczym notebooku.
Potrafię projektować pipeline'y ML od pierwszych zasad.
Umiem rozłożyć niejasny problem na architekturę techniczną.
Projekt zbudowany ręcznie przed erą powszechnego AI-assisted codingu. Pokazuje samodzielne rozumienie problemu, debugowanie i dowożenie bez gotowych odpowiedzi z narzędzi AI.
Następny krok
Masz podobny problem do dowiezienia?
Napisz krótko, co chcesz zbudować. Najpierw uporządkuję problem, potem zaproponuję sensowną architekturę i pierwszy działający zakres.