Przejdź do treści
Polecamy

Nowa strategia PFR 2026–2030: Inwestujemy dla przyszłych pokoleń. Dowiedz się więcej!

Publikacje Data publikacji: 06 lutego 2026

Start z polskim AI – od pomysłu do wdrożenia #BCNN

Autor Magdalena Bryś Ekspertka ds. rozwoju innowacji, Departament Rozwoju Innowacji | Polski Fundusz Rozwoju S.A.
Autor Patryk Bitner Młodszy Specjalista ds. rozwoju innowacji, Departament Rozwoju Innowacji | Polski Fundusz Rozwoju S.A.
Polski Fundusz Rozwoju S.A.

Start z polskim AI to cykl rozmów, którego celem jest przedstawienie doświadczeń związanych z polskimi modelami językowymi AI oraz praktykami firm i instytucji we wdrażaniu tych rozwiązań.  Tym razem prelegentem był Paweł Gołąb z firmy BCNN, zajmujący się budową ontologii i grafów wiedzy wspierających wdrożenia AI (m.in. w mediach oraz medycynie), wykorzystując polski model Bielik.ai.

Jakie były kluczowe motywacje oraz cele biznesowe stojące za decyzją o wdrożeniu modeli językowych Bielik? Co przesądziło o ich wyborze w Państwa projektach, zarówno w obszarze dziennikarskim, jak i medycznym? Czy impuls do wdrożenia wynikał głównie z potrzeb klientów, czy z Państwa własnych założeń strategicznych?

Fundamenty naszej decyzji były zasadniczo dwa. Po pierwsze, bardzo szybko zdecydowaliśmy się na modele z rodziny Bielik, ponieważ należą one do kategorii rozwiązań lokalnych. Możemy uruchamiać je we własnej infrastrukturze, nie jesteśmy zależni od zewnętrznych dostawców, a przede wszystkim - mamy pełną kontrolę nad bezpieczeństwem danych. W naszej działalności, szczególnie w sektorach regulowanych, nie ma możliwości, aby wrażliwe informacje, takie jak dane z analiz spraw sądowych, trafiały poza naszą infrastrukturę czy były przetwarzane w innych jurysdykcjach.

Drugim kluczowym elementem jest polskość modelu. Przy tak zaawansowanych analizach potrzebujemy narzędzia, które oferuje najwyższą jakość w odniesieniu do danych polskojęzycznych. Modele o charakterze ogólnym mimo, że z każdą generacją coraz lepiej radzą sobie z językiem polskim, nadal są trenowane przede wszystkim na danych globalnych (głównie anglojęzycznych). W efekcie nie zawsze wychwytują specyficzne polskie konteksty, terminologię czy niuanse branżowe.

Jeśli zależy nam na osiągnięciu tych dodatkowych kilku punktów procentowych dokładności, niezbędne jest wykorzystanie modelu zakorzenionego w polskim języku, kulturze i realiach rynkowych. I właśnie to oferują polskie modele językowe.

Przechodząc do potrzeb organizacji - zarówno w obszarze medycznym, jak i mediów (dziennikarskim).  Jakie konkretne wyzwania udało się Państwu rozwiązać dzięki wykorzystaniu AI? Jakie procesy zostały zautomatyzowane i jakie przykłady zastosowań okazały się kluczowe w tych dwóch sektorach?

W tych i wielu innych wdrożeniach adresujemy kluczowy problem, który pojawia się właściwie w każdym projekcie związanym z AI: zalew danych. Mamy do czynienia z ogromną liczbą informacji, przez które trzeba się przebić, powiązać ze sobą i odnaleźć w nich najistotniejsze treści.

Na co dzień jesteśmy bombardowani treściami z mediów społecznościowych czy portali informacyjnych i nierzadko czujemy się tym przytłoczeni. Podobnie mają osoby, z którymi pracujemy. Dziennikarze z Ringier Axel Springer Polska muszą z masy danych wyłowić to, co najważniejsze i na tej podstawie stworzyć materiał. Lekarze muszą w gąszczu informacji dotyczących pacjenta znaleźć kluczowe zależności, które pozwolą postawić właściwą diagnozę i zaplanować skuteczne leczenie.

U nich ta „strefa przeciążenia” jest o wiele wyższa niż w przypadku zwykłego scrollowania Instagrama.

I właśnie ten problem adresujemy. Harmonizujemy dane, porządkujemy je w spójną całość i dostarczamy narzędzia, które pozwalają z nimi dosłownie „porozmawiać”. Oczywiście w wielu miejscach pojawia się element RAG, ale przede wszystkim wykorzystujemy modele językowe do budowania struktury, która łączy dane i umożliwia odnalezienie tych najważniejszych fragmentów wiedzy.

Dla dziennikarzy może to być odpowiedź na pytanie: kto z kim najczęściej się kontaktował i jak często pojawia się w aktach sprawy?

Dla lekarzy, które leki wchodzą ze sobą w interakcję albo czy pacjent nie stosuje równolegle terapii, która może wpłynąć na postępowanie specjalisty.

Jak przebiegał proces wyboru modelu Bielik do zastosowań zarówno w obszarze medycyny, jak i mediów? Jakie czynniki okazały się kluczowe: bezpieczeństwo, jakość językowa, zgodność regulacyjna czy może inne elementy, które ostatecznie przesądziły o decyzji?

Od początku zakładaliśmy, że chcemy pracować na polskim modelu językowym. Wynikało to zarówno z jakości dostępnych wtedy rozwiązań, jak i z charakteru naszej platformy. Gdy zaczynaliśmy, modele ogólnodostępne wciąż miały wyraźne problemy z językiem polskim - odpowiedzi były niedokładne, pojawiały się błędy i „łamanie” języka. Naturalnym kierunkiem było postawienie na modele rozwijane lokalnie, zwłaszcza że pracujemy na wrażliwych danych, co dodatkowo wzmacniało potrzebę wyboru rozwiązania krajowego.

Jeśli chodzi o dostępne opcje, niewiele osób wie, że w Polsce funkcjonują obecnie cztery większe modele: Bielik, PLLuM, Qra i Trurl. Dwa ostatnie to projekty bardziej niszowe.

W praktyce wybór okazał się więc prosty - Bielik był najdojrzalszy, dostępny jako pierwszy i najlepiej odpowiadał naszym potrzebom. Nasze projekty w mniejszym stopniu dotyczą analizy dokumentów urzędowych, a bardziej pracy z językiem naturalnym w kontekście ogólnym. W tym obszarze Bielik po prostu najlepiej „zagrał” z naszymi wymaganiami i sprawdził się w projekcie.

Które wdrożenia oparte na Bieliku uznałby Pan za najważniejsze- zarówno w obszarze mediów, jak i medycyny? Czy kluczowe były przede wszystkim kwestie technologiczne, takie jak integracje z istniejącymi systemami i architekturą danych? A może pojawiały się również wyzwania po stronie organizacyjnej, choć te zapewne dotyczyły już bardziej samych klientów? Interesowałaby mnie szczególnie ta warstwa technologiczna i jej specyficzne trudności.

Nasza rola polega na wdrażaniu platformy, która odpowiada na kluczowe wyzwania projektów AI. Jak wiadomo, 80-90% pracy przy takich wdrożeniach to praca z danymi i to właśnie ten obszar bierzemy na siebie. Oba projekty, o których Pani wspomina, są obecnie w toku i dynamicznie się rozwijają i w obu przypadkach mierzymy się z tym samym fundamentalnym problemem.

Dane są ekstremalnie zróżnicowane: PDF-y, tabele, zdjęcia, akta spraw, notatki, dokumentacja wewnętrzna i wiele innych formatów. Wszystko to trzeba połączyć, zharmonizować i sprowadzić do spójnej struktury, która umożliwia dalszą pracę i rzeczywiste zrozumienie treści. W obu wdrożeniach rozwiązujemy więc tak naprawdę identyczny problem -  różni się jedynie dziedzina i słownictwo.

Co ciekawe, medycyna i praca śledcza są do siebie bardziej podobne, niż mogłoby się wydawać. Obrazowym przykładem jest Sherlock Holmes, inspirowany postacią Josepha Bella - chirurga i mentora Arthura Conana Doyle’a. W obu tych światach działa się w przestrzeni hipotez: formułujemy je, weryfikujemy, podążamy „po nitce do kłębka”, szukając potwierdzenia w konkretnych dokumentach. Tu nie ma miejsca na halucynacje ani zgadywanie - każdy wniosek musi mieć oparcie w twardych danych.

Na najbardziej ogólnym poziomie robimy więc w obu przypadkach dokładnie to samo- zmienia się jedynie kontekst branżowy.

Jak długo trwał proces wdrożenia i jakie obejmował kluczowe etapy? Czy w przypadku projektów realizowanych dla sektora mediów i medycyny występowały istotne różnice, czy też przebiegały one w podobny sposób? Interesujący jest również sam przebieg współpracy- w jaki sposób doszło do rozpoczęcia projektu oraz jak wyglądał cały proces od momentu zgłoszenia po realizację.

Platforma, którą rozwijamy, powstaje od wielu lat, jeszcze zanim sztuczna inteligencja stała się tematem masowej popularności. Dzięki temu była wdrażana w różnych konfiguracjach i kontekstach. Jeśli chodzi o sektor mediów, współpraca rozpoczęła się od projektu realizowanego wspólnie z MIM Solutions - firmą, z którą często tworzymy złożone rozwiązania. Budowaliśmy system do wyszukiwania i lokalizowania dezinformacji na Twitterze.

W tym projekcie również wykorzystano Bielika. Kluczowe było to, że model potrafił wiernie oddać oryginalny ton i styl wpisów, nie „wygładzając” treści podczas podsumowań. W pracy analitycznej to niezwykle istotne, bo osoby monitorujące media muszą sprawnie identyfikować agresję, strach czy narracje budzące niepokój. Bielik, w przeciwieństwie do wielu komercyjnych modeli, zachowywał te niuanse, co okazało się dużą przewagą.

Co ciekawe, współpraca z mediami rozwinęła się organicznie. Prezentując wyniki projektu na AI Summit, spotkaliśmy dziennikarzy zainteresowanych analogiczną analizą i narzędziami, które pomogą odnaleźć najważniejsze treści w ogromnych wolumenach dokumentów. Problem był identyczny: z dziesiątek tysięcy materiałów trzeba wyłonić kilkanaście kluczowych.

Z kolei projekt medyczny wyrósł z innego wcześniejszego rozwiązania: systemu wspierającego lekarzy w wyszukiwaniu interakcji pomiędzy lekami. Został on opublikowany w jednym z rządowych raportów i zwrócił uwagę MDT Medical - nowoczesnej kliniki, która całkowicie przeorganizowuje sposób prowadzenia pacjenta. Placówka pracuje w oparciu o hipotezy kliniczne i szybkie ich weryfikowanie, co przekłada się na wysokie oceny i skuteczność terapii. Jej celem było zdigitalizowanie tego procesu.

W tym przypadku budujemy strukturę przedstawiającą historię pacjenta jako dynamiczny proces, który można analizować i stale wzbogacać o wnioski sugerowane przez sztuczną inteligencję. Znów kluczowe było zastosowanie modelu, który potrafi poprawnie przełożyć dane z wywiadu medycznego czy notatek lekarza na spójną strukturę umożliwiającą dalszą pracę analityczną.

W jaki sposób oceniana jest efektywność wdrożenia oraz czy wykorzystywane są określone wskaźniki do jej mierzenia? Jeśli tak, które z tych wskaźników uznawane są za kluczowe?

Na najbardziej ogólnym poziomie kluczowymi dla nas kryteriami są zawsze czas i dokładność. Po pierwsze analizujemy, czy system realnie oszczędza czas operatora. Przykładowo, w projekcie dotyczącym analizy tweetów udało się zredukować przestrzeń poszukiwań tysiąckrotnie: z około 60 tysięcy tweetów powstało 40 kluczowych narracji.

W przypadku dziennikarzy śledczych różnica ma wręcz charakter jakościowy. System pozwala pracować na wolumenie danych, którego ręczne przeanalizowanie byłoby niemożliwe w czasie potrzebnym na przygotowanie materiału i publikację. W efekcie skraca się czas pracy, ale jednocześnie rośnie jakość uzyskanych wniosków.

Drugim kluczowym wskaźnikiem jest dokładność. W obszarze medycznym planujemy uruchomienie dużego badania porównawczego: lekarze otrzymają zarówno nasz system, jak i tradycyjną dokumentację pacjenta. Celem będzie sprawdzenie, jakie informacje są w stanie wychwycić i czy system pomaga dotrzeć do faktów, które w typowych warunkach bywają pomijane.

Z doświadczenia wiemy już, że tak właśnie się dzieje - system pozwala odnaleźć elementy, których człowiek często nie wyłapuje. Dlatego drugim najważniejszym wskaźnikiem jest wzrost dokładności informacji odzyskiwanych ze zbiorów danych.

Jakie są dalsze plany dotyczące rozwoju i wykorzystania modeli językowych w omawianych obszarach, szczególnie w dziennikarstwie oraz medycynie? W jakim kierunku może zmierzać ich dalsze zastosowanie?

To temat, o którym moglibyśmy rozmawiać przez długie godziny, bo możliwości rozwoju są ogromne. Mamy mocne przekonanie, że na ten moment wykorzystujemy jedynie niewielki ułamek potencjału, jaki oferują modele językowe. A przecież właśnie pojawił się Bielik 3.0 - model, z którym dopiero musimy się dobrze zapoznać, zrozumieć jego możliwości i zobaczyć, jakie nowe funkcje wnosi. Nawet poprzednie wersje oferują ogrom rozwiązań, z których wiele pozostaje niewykorzystanych. Często dlatego, że nie mieliśmy czasu ich wdrożyć albo po prostu jeszcze nie wpadliśmy na odpowiednie zastosowania.

Nasza roadmapa liczy dziesiątki pozycji: od bardziej zaawansowanych systemów agentowych, przez rozbudowę przepływów informacji w platformie, po integrację modeli w dodatkowych etapach analizy. Chcemy m.in. rozwijać przekształcanie naszych złożonych struktur analitycznych na język naturalny czy zbudować tekstowy interfejs umożliwiający pracę z całym ekosystemem danych. Możliwości są praktycznie nieograniczone.

Myślę, że nawet gdyby dziś zatrzymać rozwój technologii na świecie, ludzkość miałaby jeszcze dziesiątki lat pracy przed sobą, aby w pełni wykorzystać to, co już mamy.

Co, Pana zdaniem, najbardziej przyspieszyłoby adopcję polskich modeli językowych w biznesie? Czy kluczowa byłaby tu edukacja, regulacje, czy może szersza dostępność samych rozwiązań?

Pozwolę sobie zacząć od dwóch niewygodnych, ale istotnych obserwacji wynikających również z naszych doświadczeń szkoleniowych.

Po pierwsze, w środowisku AI często przywołuje się raport MIT, według którego aż 95% wdrożeń sztucznej inteligencji nie osiąga zakładanych rezultatów. W mediach zwykle eksponowano jedynie ten nagłówek, pomijając bardzo trafne wyjaśnienia stojące za tym zjawiskiem. Głównym powodem jest brak odpowiedniej edukacji: zrozumienia, czym poszczególne modele są, czym się różnią, jak działają oraz kto przetwarza dane i w jaki sposób. Wielu osobom wciąż brakuje podstawowej wiedzy o tym, czym jest GPT, Claude czy Gemini i na jakich zasadach pracują te narzędzia.

Jesteśmy w trakcie ogromnej rewolucji technologicznej. Kiedyś, w erze przejścia na systemy okienkowe, naturalne było kupowanie kursów na dyskietkach i płytach CD, które tłumaczyły, jak używać myszki. Dziś wydaje się to absurdalne, a jednocześnie znów stoimy przed podobną zmianą - tym razem związaną z architekturą Transformer, która zakończyła tzw. „zimę AI” i umożliwiła masowe wykorzystanie modeli językowych. Różnica polega na tym, że skala tej rewolucji jest znacznie większa, natomiast ruch edukacyjny, znacznie mniejszy.

Dlatego edukacja ma kluczowe znaczenie: zarówno ta indywidualna, jak i ta realizowana przez instytucje, firmy i państwo. Potrzebne są inicjatywy dydaktyczne, konferencje, programy wsparcia. Dobrym przykładem jest BUR, gdzie dostępne są dopłaty do szkoleń, w tym kursów dotyczących AI. Równie istotne jest budowanie kompetencji ekspertów - tak, by odróżniać osoby faktycznie pracujące z modelami od tych, które rok temu zajmowały się zupełnie inną dziedziną.

Druga ważna kwestia dotyczy oczekiwań wobec modeli lokalnych. Jeśli uruchamiamy Bielika, Llamę czy inny otwarty model, musimy mieć świadomość, że nie uzyskamy takiego doświadczenia jak w ChatGPT czy Copilocie. Komercyjne narzędzia to nie tylko model językowy, ale także zestaw dodatkowych modułów, mniejszych modeli, heurystyk i systemów agentowych, przez które „przechodzi” każde nasze polecenie. Sam model to tylko rdzeń - cała obsługa użytkownika, pre‑ i post‑processing, kontrola jakości, przypisywanie narzędzi, to elementy, które trzeba samodzielnie zbudować, jeśli korzystamy z modelu lokalnego.

Dlatego edukacja jest tu ponownie kluczowa: aby rozumieć, co właściwie pobieramy, dlaczego warto to wykorzystać i w jakich procesach ma to realny sens. Komercyjna praca z modelami językowymi nie polega na „chatowaniu”, ale na budowaniu pipeline’ów: klasyfikacji dokumentów, generowaniu podsumowań, obsłudze korespondencji czy automatyzacji procesów. Do takich zastosowań lokalne modele nadają się świetnie - pod warunkiem, że wiemy, gdzie i jak je osadzić oraz dobrze rozumiemy kontekst technologiczny, w którym pracujemy.

Dziękujemy za rozmowę!