Pipeline ML / 2025

Paragon Pipeline

Seria modeli i algorytmów do odczytu, klasyfikacji oraz ekstrakcji informacji z polskich paragonów.

Bez AIEnd-to-end delivery
OCRNERTransformersReceipts
EraBez AI
ZakresPipeline ML
Stack4 obszary
Dowód3 repo

Case study

Od problemu do działającego systemu.

01 / Kontekst

Problem do rozwiązania

Paragon to trudny dokument: ma nieregularne formatowanie, skróty, szumy OCR i dane, których nie da się wygodnie parsować prostymi regexami.

02 / Rozwiązanie

Co zbudowałem

Zbudowałem koncepcję pipeline'u: ParagonOCR odczytuje linie, ParagonNER klasyfikuje je, a ParagonPIE wydobywa informacje produktowe.

03 / Podejście

Architektura

Pipeline rozbija problem na mniejsze etapy: obraz → linie tekstu → klasyfikacja linii → filtrowanie → ekstrakcja informacji.

04 / Odpowiedzialność

Moja rola

Samodzielne badanie problemu, eksperymenty z modelami, projekt etapów pipeline'u i dokumentowanie zależności między repozytoriami.

Najtrudniejsze fragmenty

To są miejsca, gdzie projekt naprawdę testował myślenie.

  1. 01

    Podział złożonego problemu ML na mierzalne etapy.

  2. 02

    Praca z polskim językiem, skrótami i formatem paragonów.

  3. 03

    Myślenie o całym systemie, nie tylko pojedynczym notebooku.

Co to udowadnia

Potrafię projektować pipeline'y ML od pierwszych zasad.

Umiem rozłożyć niejasny problem na architekturę techniczną.

Projekt zbudowany ręcznie przed erą powszechnego AI-assisted codingu. Pokazuje samodzielne rozumienie problemu, debugowanie i dowożenie bez gotowych odpowiedzi z narzędzi AI.

Następny krok

Masz podobny problem do dowiezienia?

Napisz krótko, co chcesz zbudować. Najpierw uporządkuję problem, potem zaproponuję sensowną architekturę i pierwszy działający zakres.

Napisz email