Przejdź do treści
WAŻNE

Przekazanie oświadczenia o liczbie pracowników i uczestników Pracowniczych Programów Emerytalnych (PPE). Sprawdź, co należy zrobić!

Polecamy

Nowa strategia PFR 2026–2030: Inwestujemy dla przyszłych pokoleń. Dowiedz się więcej!

Publikacje Data publikacji: 08 stycznia 2026

Start z polskim AI. Od pomysłu do wdrożenia #Bielik.ai

Start z polskim AI - Rozmowa w ramach programu Centrum Kompetencji AI
Start z polskim AI - Rozmowa w ramach programu Centrum Kompetencji AI
Autor Magdalena Bryś Ekspertka ds. rozwoju innowacji, Departament Rozwoju Innowacji | Polski Fundusz Rozwoju S.A.
Autor Patryk Bitner Młodszy Specjalista ds. rozwoju innowacji, Departament Rozwoju Innowacji | Polski Fundusz Rozwoju S.A.
Polski Fundusz Rozwoju S.A.

Start z polskim AI to cykl rozmów, którego celem jest przedstawienie doświadczeń związanych z polskimi modelami językowymi AI oraz praktykami firm i instytucji we wdrażaniu tych rozwiązań. Zapraszamy do rozmowy z Katarzyną Starosławską, Wiceprezes Fundacji SpeakLeash i  Bielik.ai.

Co było główną motywacją do opracowania modelu językowego i jakie były główne cele?

Sebastian Kondracki (założyciel i współtwórca Bielik.ai) zauważył jako pierwszy — i co właściwie zapoczątkowało cały ruch — to fakt, że pod koniec 2022 roku wszystkie duże modele trenowane głównie na danych anglojęzycznych nie radziły sobie dobrze z językiem polskim. Nie rozumiały naszej treści, kontekstu kulturowego ani społecznego. Stąd najpierw narodził się pomysł, żeby zbudować własny, polski zestaw danych. Prace nad tym zbiorem ruszyły w listopadzie 2022 roku, a wiosną 2024 roku Panowie pomyśleli: skoro mamy już całkiem solidną bazę danych, to może czas spróbować stworzyć model, który naprawdę będzie rozumiał język polski. Tak zaczęła się właściwa budowa modelu, Bielik.ai.  Co ciekawe, kiedy Sebastian po raz pierwszy opowiadał o tym pomyśle publicznie na Data Science Summit — wiele osób mówiło, że to szaleństwo, że to się nie uda i że zbudowanie polskiego dużego modelu jest właściwie niemożliwe. Właśnie wtedy podszedł do niego Adrian Gwoździej, dziś nasz szef danych, i powiedział, że wierzy w powodzenie projektu i chce do niego dołączyć. Później dołączały kolejne osoby. Na przykład Remek Kinas napisał do Sebastiana na LinkedInie, że to się nie uda… więc Sebastian zaprosił go do zespołu. I został. Trochę na zasadzie: „Skoro uważasz, że nie damy rady — chodź, spróbujemy razem”. Tak narodziła się niewielka, ale bardzo zmotywowana grupa ludzi, którzy chcieli udowodnić, że to możliwe. Przełomem były granty na moc obliczeniową od Cyfronetu (Akademickie Centrum Komputerowe Cyfronet AGH). Bez tego wsparcia Bielik nie byłby dziś w tym miejscu — prace rozwijałyby się znacznie wolniej. Cyfronet ma obecnie ponad 250 kart graficznych - oczywiście stoimy w kolejce, bo nie są tylko dla nas, ale możliwość korzystania z tej infrastruktury była kluczowa. Ogromną rolę odegrały osoby z Cyfronetu, jak Łukasz Flis, który jest w naszym zespole technicznym, oraz Marek Magryś, pełniący obowiązki dyrektora - obaj uwierzyli, że warto w to wejść. Filarem naszej działalności i celów jest społeczność, która rośnie niezwykle szybko. Jedni przychodzą, żeby się uczyć, jak to się właściwie buduje. Inni po prostu chcą obserwować i kibicować. Ta energia naprawdę ma wielką moc.

Społeczność Bielik.ai to Wasza siła w budowaniu i rozwoju.

Czasami myślę, że dziś robimy rzeczy w taki sposób o których czytałam w książkach - tyle, że je robimy i to w Polsce na swój unikalny sposób.

To jest zdanie, które samo w sobie mogłoby być headline’em naszej rozwoju. Z kim obecnie współpracujecie przy rozwoju Bielik.ai?

Dziś współpracujemy z coraz większą liczbą osób i instytucji, które chcą mieć swój udział w rozwijaniu modelu. Na początku kluczowy był właśnie Cyfronet — zarówno dzięki grantom, jak i dzięki otwartości Marka Magrysia, który uwierzył w projekt. Nadal bardzo blisko działamy przede wszystkim z Cyfronetem, zwłaszcza w obszarze technologicznym. W październiku ogłosiliśmy też rozpoczęcie współpracy z firmą Beyond, żeby móc oferować firmom moc obliczeniową i gotowe rozwiązania, bez konieczności budowania przez nie własnej infrastruktury. Wspierają nas również EY, biznesowo, finansowo i doradczo, ogromne znaczenie ma dla nas pomoc byłego premiera Jana Krzysztofa Bieleckiego. Na naszym wydarzeniu, Bielik Summit ogłosiliśmy współpracę z InPostem i powołanie Rady Biznesu przy Bieliku. Mam poczucie, że to będzie ogromne wsparcie dla projektu — nie tylko dla jego rozwoju w Polsce, ale też dla europejskiego ekosystemu sztucznej inteligencji.

Gratulacje współpracy! Z kim współpracujecie międzynarodowo?

Mamy podpisane listy intencyjne m.in. z Uniwersytetem w Lublanie (Słowenia), któremu pomagamy budować modele. Słoweńcy przygotowują swoją wersję językową, czyszczą własne dane i będą współtworzyć z nami kolejny duży, multimodalny model. W przyszłym roku planujemy rozwijać projekt Obywatel Bielik, który pozwoli budować obywatelskie zbiory danych w całej Europie. Rozmawiamy też z Albanią, Ukrainą, a ostatnio pojawił się nawet temat współpracy z Macedonią, Mołdawią, Srebia, Słowacją. To pokazuje, jak różnorodne są kontakty — Bałkany, Hiszpania, Europa Środkowo-Wschodni. Te kraje często są zbyt małe, by dla globalnych modeli były atrakcyjnym rynkiem, a jednocześnie bardzo chcą mieć własne rozwiązania AI - i chcą je współtworzyć.

Dlatego tak ważne jest budowanie otwartych, lokalnych modeli, które te kraje mogą współtworzyć.

Zgadza się. Na Bielik Summit zaprezentowaliśmy model, który działa już w 30 językach — i w niektórych radzi sobie zaskakująco dobrze, na przykład w albańskim. Niedawno Microsoft i Uniwersytet Maryland opublikowali badania dotyczące efektywności językowej w skomplikowanych promptach. Okazało się, że język polski sprawdza się w nich najlepiej. Myślę, że właśnie dlatego łatwiej jest nam skalować się na inne języki — skoro zaczynaliśmy od polskiego, który dobrze radzi sobie z wyrażaniem złożonych treści.

Działacie też społecznie, współpracując między innymi z fundacjami.

Równolegle zaczęliśmy mocniej angażować się w projekty społeczne i obywatelskie. W ramach inicjatywy Obywatel Bielik współpracujemy m.in. z Fundacją PFR, gdzie latem uruchomiliśmy wakacyjną akcję edukacyjną. Jej celem było pokazanie młodym ludziom, jak tworzy się sztuczną inteligencję — uczestnicy fotografowali elementy dziedzictwa kulturowego i opisywali je, ucząc się, jak wygląda tworzenie zbiorów danych. Co ciekawe, na początku tej współpracy zauważyliśmy, że projekt wspaniale łączy pokolenia. Dlatego później rozszerzyliśmy działania na Uniwersytety Trzeciego Wieku. Na jednym z takich spotkań jedna z pań powiedziała: „Jak wnuczek zacznie mi opowiadać o ChatGPT, to ja mu odpowiem: a ja dodaję dane do Bielika”. To było zabawne, ale też bardzo symboliczne — pokazuje, że seniorzy nie są wykluczeni technologicznie. Przeciwnie — ta technologia ich potrzebuje.

Ostatnio też prowadziliście akcję społecznościową „Prześlij zdjęcie, a my je opiszemy”.

To prosta forma crowdsourcingu, dzięki której społeczność współtworzy otwartą bazę zdjęć i opisów potrzebnych do trenowania polskiej sztucznej inteligencji. Inicjatywa ma zachęcić do wspólnego budowania zasobów kulturowo-wizualnych, a dodatkową motywacją dla najbardziej aktywnych jest e-book dla osób, które prześlą ponad 10 zdjęć. Tak właśnie buduje się obywatelskie zbiory danych —z zaangażowaniem obywateli. Zresztą w Polsce mieliśmy już ciekawe przykłady takich inicjatyw. W ramach prac w grupie roboczej przy Ministerstwie Cyfryzacji przygotowujemy raport o takich projektach. Jednym z najbardziej inspirujących był program Spławik stworzony przez BNP Paribas — wędkarze zbierali dane o jakości wód w Polsce przy pomocy specjalnych czujników.

Jakie planujecie kolejne współprace z organizacjami?

Ruszamy z dużą akcją we współpracy z Polska Press. Chcemy zaangażować czytelników portali regionalnych z całej Polski do współtworzenia obywatelskich zbiorów danych. To będzie naprawdę duży projekt, bo zasięgi Polska Press są ogromne.

Prowadzimy  pilotaż Eskadra Bielika, który zapowiada się bardzo obiecująco. Wspólnie z Googlem — który finansuje wynajem przestrzeni warsztatowych — stworzyliśmy projekt szkoleniowy dotyczący budowania agentów na Bieliku. Gdy otworzyliśmy nabór, chcieliśmy wybrać 40 trenerów – ale dostaliśmy 300 zgłoszeń. Ostatecznie, w ramach dostępnego budżetu, zatrzymaliśmy 48 trenerek i trenerów.  Szacujemy, że do połowy grudnia przeszkolimy około 2000 deweloperów, którzy będą potrafili zbudować agenta na Bieliku. Jeśli po stronie Google będzie wola, żeby kontynuować projekt w przyszłym roku — myślę, że skala może być jeszcze większa.

Spora grupa przeszkolonych.

W Polsce szacuje się, że mamy około 600 tysięcy deweloperów – to ogromna grupa. Każda z tych osób może tworzyć agentów na potrzeby swojej firmy albo wykorzystać zdobyte kompetencje, żeby zbudować własny startup i opracować zupełnie nowego agenta. Właśnie w tym tkwi siła naszej społeczności. Część tych osób już do niej należy, a część – choć chciała dołączyć – nie mogła wziąć udziału w tej edycji szkolenia trenerskiego ze względu na jego terminy. Dlatego bardzo nam zależy, aby program był kontynuowany. To konkretne narzędzia i realne kompetencje, które umożliwiają coraz większej liczbie osób korzystanie z możliwości Bielika.

Macie bardzo dobrze to rozplanowane.

Pracujemy też oczywiście z deweloperami. Zawsze się z tego śmiejemy, bo nasz zespół treningowy jest rozsiany po całej Polsce. Mimo takiego rozproszenia wszystko działa znakomicie. Wczoraj rozmawiałam z Krzyśkiem Ociepą i żartowaliśmy, że ja jestem przyzwyczajona do myślenia o Polsce szerzej, bo Warszawa to jednak bardzo specyficzna bańka – a rzeczywistość wygląda inaczej w innych częściach kraju. Musimy pamiętać o pani Krystynie z Bydgoszczy, panu Zdzisławie z Przasnysza, Krzyśku z Końskich i wielu innych osobach, bo Polska poza Warszawą ma swoją własną dynamikę.

Jak wyglądała praca nad trenowaniem modelu – z jakimi wyzwaniami musieliście się zmierzyć?

Nie chcę się wypowiadać z perspektywy zespołu treningowego, bo do niego nie należę, ale z mojego      punktu widzenia i doświadczenia pracy z danymi to widzę przede wszystkim wyzwania operacyjne i związane właśnie z danymi. Jedno z nich to konieczność czekania w kolejce na moc obliczeniową. Dostajemy na przykład dwa tygodnie na trening modelu, a to jest naprawdę duże ograniczenie.  Co ciekawe, zbiory danych, które teoretycznie powinny być dobre jakościowo, wcale takie nie są. Adrian Gwoździej przygotował różnego rodzaju narzędzia do ich oczyszczania i organizowania — i dla mnie to jest fascynujące, że oni są w stanie wpaść na pomysł i dosłownie w dwie godziny mają gotowe rozwiązanie. Każdy w zespole stworzył jakieś własne narzędzia pod Bielika. Jakość danych to dla nas absolutny priorytet — wszyscy w zespole powiedzieliby to samo. Potrzebujemy także danych do treningu, które nie są dostępne w Internecie. Dlatego Adrian z zespołem ręcznie stworzyli i przeprocesowali kilka tysięcy dokumentów. Robimy to, bo jeśli oprzemy się wyłącznie na powszechnie dostępnych danych, nie będziemy w stanie się wyróżnić. Czasem robię test: wrzucam dokładnie to samo pytanie do kilku dużych modeli — Gemini, OpenAI, Claude czy Perplexity. Zrobiłam to choćby w zeszłym tygodniu. I co? Odpowiedzi są praktycznie identyczne. Różni się jedynie styl, ale sama treść jest prawie taka sama. Widać, że działają na tych samych, internetowych zbiorach — które są nie tylko ograniczone, ale często także zaśmiecone. To prowadzi do ważnej refleksji: mówimy, że AI pomaga nam tworzyć treści, być kreatywnymi, przygotowywać materiały marketingowe. Tylko czy rzeczywiście tak jest? Jak mamy się wyróżnić, skoro wszyscy korzystają z tych samych danych i dostają podobne odpowiedzi? To może być duże wyzwanie w przyszłości. Jeżeli nie będziemy mieli własnych, unikalnych zbiorów danych — takich, które nie są publicznie dostępne — trudno będzie budować prawdziwą przewagę. A przecież unikalność to wciąż domena człowieka, a nie modeli, które karmione są dokładnie tym samym. Dlatego prosimy różne instytucje o udostępnianie materiałów. W ramach współpracy otrzymamy między innymi duże zbiory z Narodowego Archiwum Cyfrowego.

W archiwach znajduje się mnóstwo materiałów, które nie są odpowiednio opracowane pod kątem sztucznej inteligencji. Na przykład nagrania z Polskiej Kroniki Filmowej czy różne archiwalne fotografie — często w ogóle nieopisane. To ogromny zasób wiedzy, który dopiero zaczynamy przygotowywać do wykorzystania w modelu.

Jakie są przykłady wdrożeń modelu Bielika.ai w organizacjach? Jakie branże najczęściej zgłaszają się do Was?

Najwięcej wdrożeń jest chyba w branżach regulowanych, czyli tam, gdzie przetwarzane są dane wrażliwe lub ultra wrażliwe. Mamy wdrożenia w bankach, w firmach ubezpieczeniowych i bardzo dobre sygnały z innych sektorów. Nie mogę jeszcze mówić o wszystkich dużych projektach, ale w medycynie niektóre ośrodki same zainstalowały Bielika i używają go np. do strukturyzowania danych opisowych lekarzy, takich jak notatki z wizyt.

W branży prawnej powstaje również wiele rozwiązań. Bielika można traktować jak silnik: zależnie od potrzeb, „zakładamy mu karoserię” od Porsche, Volkswagena czy innej marki — w zależności od grupy docelowej i tego, w jaki sposób chcemy go wykorzystać. Najwięcej wdrożeń faktycznie jest w bankach, co częściowo wynika z faktu, że Sebastian Kondracki, który pracuje w Deviniti, miał od samego początku ogromne wsparcie właścicieli i zarządu firmy. Ich otwartość pozwoliła mu rozwijać Bielika i realizować ten pomysł. Deviniti      wyprodukowało także różne „karoserie” dla Bielika, dostosowując go do konkretnych zastosowań. Dzięki temu powstało już wiele ciekawych rozwiązań opartych na Bieliku i rozwijanych wokół niego.

Jak wygląda proces wdrożenia w praktyce – od pomysłu po działające rozwiązanie? Bardziej z Twojej perspektywy biznesowej.

Zazwyczaj rozmawiamy w ramach spotkań inspiracyjnych, żeby szerzej opowiedzieć, czym jest Bielik i do czego można go wykorzystać. Zawsze podkreślamy, żeby zaczynać od małego, testowego fragmentu. Systemy w firmach były projektowane do innych celów i nie są od razu gotowe do wykorzystania w sztucznej inteligencji. Mimo że organizacje mają ogromne zbiory danych, nie wszystko da się od razu użyć. Bardzo często dane trzeba dostosować do potrzeb AI. Szczególnie w bankach, gdzie po fuzjach funkcjonują równoległe systemy, klienci nie są połączeni, a żeby na przykład przygotować spersonalizowane oferty przy użyciu Bielika, trzeba łączyć różne bazy danych, które mają odmienne struktury — i nie jest to wcale proste.

Z mojego doświadczenia, największym wyzwaniem wdrożeniowym nie jest sam Bielik, ale organizacja i proces decyzyjny w firmach. Osoba, która chce rozpocząć działania z AI, często nie ma wiedzy potrzebnej do zbudowania biznes case’u dla zarządu czy właściciela firmy. Pojawiają się pytania techniczne, jak np. rozliczenie za tokeny czy koszt godzinowy. Żeby przygotować biznes case, trzeba wiedzieć, ile tokenów zużyje model, a większość osób w organizacji tego nie rozumie. To blokuje szybkie wdrożenia, mimo chęci i potencjału w firmie. Drugim problemem jest weryfikacja kompetencji firm i konsultantów szkolących w AI. AI literacy, czyli szkolenia dla pracowników, to jedno, a budowanie systemów AI w firmie — to zupełnie coś innego. Niestety, widziałam przypadki, gdzie szkoleniowcy proponowali osobom na wysokich stanowiskach wrzucanie do ChatGPT danych finansowych lub wrażliwych informacji przed M&A, żeby przygotować komunikaty prasowe.

To jest bardzo niebezpieczne.

Denerwuje mnie sytuacja, gdy po jednym szkoleniu ktoś uważa, że od razu może wdrożyć AI w firmie. A potem słyszymy, że wydano na AI pieniądze, ale nic się nie zmieniło, i projekt uznano za porażkę. Dla mnie to jest proste: jeśli dasz komuś młotek i nie wie, do czego służy, to zacznie uderzać nim w głowę zamiast wbić gwóźdź. Efekt będzie niezadowalający, ale to nie wina młotka. Myślę, że obecnie potrzebujemy sposobu na weryfikację wiedzy osób prowadzących szkolenia. Problem w tym, że mało kto jest w stanie sprawdzić, czy ktoś rzeczywiście ma odpowiednie kompetencje i czy to, co opowiada, jest prawdą.

Dodatkowo obserwuję, że w niektórych firmach KPI dla managementu sprowadza się jedynie do wdrożenia AI, niezależnie od faktycznej wartości biznesowej. W efekcie powstają chatboty, które generują więcej pracy w miejscach, gdzie priorytetem powinno być uporządkowanie danych i procesów. Najpierw trzeba zbudować knowledgeboty, które potrafią wyciągać informacje z różnych baz i systemów w organizacji, aby pracownicy nie musieli szukać ich ręcznie. Dopiero później można myśleć o rozwiązaniach dostępnych na zewnątrz. W organizacji wciąż wiele procesów pozostaje „niewidocznych”, mimo że technologia działa.

Wiele firm przez lata inwestowało w transformację cyfrową, a dziś w kontekście AI trzeba tę pracę wykonać niejako od nowa, w inny sposób. Rozumiem frustrację biznesu, który musi wykonać ogrom pracy, żeby pokazać efekt na zewnątrz. Ale bez uporządkowania danych nawet na małym fragmencie nie da się od razu zbudować efektywnego rozwiązania AI, chyba że organizacja jest już odpowiednio przygotowana pod sztuczną inteligencję.

W jakim kierunku zmierza Bielik.AI?

Często porównuję Bielika do Linuxa, tylko działającego w świecie AI. Tak jak Linux jest open source’em – każdy może go pobrać, zainstalować i korzystać z niego za darmo – tak samo Bielik jest otwartym modelem, dostępnym publicznie i niekomercyjnym. Nad Linuxem czuwa Linux Foundation, która rozwija projekt i prowadzi wiele inicjatyw, również w obszarze generatywnej sztucznej inteligencji. Obok tego ekosystemu przez lata wyrastały firmy takie jak Red Hat, Ubuntu i wiele innych – dostarczające rozwiązania enterprise’owe dla biznesu, z pełnym wsparciem, SLA i usługami. To, czego my w Polsce jeszcze nie mamy, a bardzo bym chciała, żeby powstało, to podobny model wsparcia: kiedy wejdziemy na stronę Linux Foundation i zobaczymy listę partnerów, jest tam niesamowita liczba logotypów firm, które rozumieją, że wspieranie open source’u przynosi korzyści całemu ekosystemowi – również tym podmiotom, które budują później rozwiązania komercyjne.

My już jesteśmy na dobrej drodze. Deviniti, EY, InPost – to firmy, które widzą wartość w tym, że fundacja potrzebuje stabilnej struktury, zaplecza operacyjnego i zespołu ludzi skupionych wyłącznie na tym projekcie. Idziemy w tym kierunku: fundacja  Speakleash rozwija otwarty model, udostępnia go bezpłatnie, realizuje kolejne projekty, ale potrzebuje finansowania i świadomości, że to nie jest produkt komercyjny. Tu nie ma udziałów – działamy dla większego dobra, budując fundament pod przyszłe innowacje. Naturalnie, wokół fundacji będą powstawały spin-offy i komercyjne inicjatywy. Ogłaszając Radę Fundacji, powiedziałam, że wierzę, iż na Bieliku wyrosną polskie jednorożce – bo taka szansa realnie istnieje. Mamy też poczucie, że jeśli w przyszłości takie projekty jak choćby Gaius Lex (asystent AI do przeszukiwania orzecznictwa, oraz analizy dokumentów, bazujący na Bielik.ai) staną się milionowymi biznesami, to być może przekażą część swoich zysków z powrotem do fundacji. Dzięki temu moglibyśmy sfinansować kolejne edycje modelu i dalej rozwijać otwarty ekosystem AI w Polsce.

Dziękuję za rozmowę.

Katarzyna Starosławska - Wiceprezes Fundacji SpeakLeash i  Bielik.ai. 
Ekspertka w obszarze danych i sztucznej inteligencji z ponad 20-letnim doświadczeniem na styku technologii, strategii i innowacji. Wspiera organizacje, instytucje publiczne oraz organy Unii Europejskiej w projektowaniu i wdrażaniu strategii opartych na danych oraz odpowiedzialnym wykorzystaniu sztucznej inteligencji. Doradza zespołom zarządzającym, instytucjom publicznym i europejskim w budowaniu kompetencji cyfrowych i strategii danych. Między innym: członkini grup ekspertów przy Komisji Europejskiej – w tym grupy ds. Next Generation European Interoperability Framework (EIF). Członkini grupy roboczej ds. partnerstw publiczno-prywatnych przy Ministerstwie Funduszy i Polityki Regionalnej, członkini grupy roboczej ds. IT i mHealth w badaniach klinicznych przy Stowarzyszeniu na rzecz Dobrej Praktyki Badań Klinicznych w Polsce (GCPpl) oraz ekspertka zewnętrzna dla Agencji Badań Medycznych, EIT Health, projektu REINFORCING, NCP_WIDERA.NET oraz Komisji Europejskiej.