Start z polskim AI – od pomysłu do wdrożenia #PLLuM
Start z polskim AI to cykl rozmów, którego celem jest przedstawienie doświadczeń związanych z polskimi modelami językowymi AI oraz praktykami firm i instytucji we wdrażaniu tych rozwiązań. Zapraszamy do rozmowy z dr Agnieszką Karlińską, adiunktką i kierowniczką Zakładu Dużych Modeli Językowych w Ośrodku Badań nad Bezpieczeństwem Sztucznej Inteligencji NASK PIB, stoi na czele konsorcjum HIVE AI, rozwijającego modele PLLuM.
Co było główną motywacją do opracowania PLLuM i jakie były główne cele?
U podstaw naszych prac leżała potrzeba stworzenia lokalnego, niezależnego i godnego zaufania modelu językowego – takiego, nad którym mamy pełną kontrolę: technologiczną, prawną i organizacyjną – i który może być bezpiecznie wykorzystywany w kluczowych obszarach państwa.
Prace nad modelami PLLuM rozpoczęliśmy formalnie w styczniu 2024 roku, jednak konsorcjum, które dziś je rozwija, miało solidne zaplecze już wcześniej. Jednostki zrzeszone w projekcie – początkowo sześć instytucji naukowych, a od 2025 roku osiem – od lat prowadziły badania nad budową, rozwojem i ewaluacją dużych modeli językowych. W gronie konsorcjantów są m.in. twórcy modeli Trurl i Qra, czyli pierwszych polskich LLM-ów. PLLuM był więc dla nas naturalną kontynuacją dotychczasowych działań, zgodną z przyjętymi kierunkami badawczymi.
Jednocześnie mieliśmy świadomość, że kolejny etap wymaga wyjścia poza pojedyncze inicjatywy badawcze. Zdecydowaliśmy się połączyć kompetencje, doświadczenia i infrastrukturę, aby stworzyć model, który nie tylko będzie konkurencyjny technologicznie, ale przede wszystkim spełni wysokie wymagania w zakresie bezpieczeństwa, transparentności i zgodności z polskim porządkiem prawnym. Nasze ambicje zbiegły się z ambicjami Ministerstwa Cyfryzacji, które sfinansowało prace nad modelami PLLuM.
Zastosowanie dużych modeli językowych jest jednym z fundamentów transformacji cyfrowej, ale jednocześnie niesie realne ryzyka, zwłaszcza gdy opiera się wyłącznie na zagranicznych, komercyjnych rozwiązaniach chmurowych. Należą do nich m.in. utrata kontroli nad danymi wejściowymi, potencjalne wycieki informacji, naruszenia praw własności intelektualnej, a także obecność stereotypów i uprzedzeń czy generowanie treści niedostosowanych do polskiego kontekstu prawnego, kulturowego i instytucjonalnego.
Dlatego naszym podstawowym celem było zbudowanie modeli, nad którymi mamy kontrolę na każdym etapie – od doboru danych treningowych, przez proces uczenia i ewaluacji, aż po przygotowanie do realnych wdrożeń. Równie istotna była kwestia bezpieczeństwa i suwerenności technologicznej – uniezależnienia się od rozwiązań, które nie zawsze spełniają krajowe wymogi prawne oraz generują długofalowe koszty i zależności. Trzecim ważnym dla nas celem był rozwój kompetencji. Jako jednostki naukowe traktujemy PLLuM nie tylko jako projekt technologiczny, ale jako inwestycję w ludzi – studentów, doktorantki i młodych badaczy – oraz w dobre praktyki, które mogą być wykorzystywane w kolejnych inicjatywach AI w Polsce. Dzięki temu PLLuM jest elementem szerszego ekosystemu, a nie jednorazowym przedsięwzięciem.
W tym roku, w ramach projektu HIVE AI, konsekwentnie łączymy badania naukowe z realnymi scenariuszami wdrożeniowymi. Opracowaliśmy dedykowane modele i wsparliśmy Centralny Ośrodek Informatyki w ich implementacji w postaci Wirtualnego Asystenta w aplikacji mObywatel, stworzyliśmy wewnętrznego chatbota dla Ministerstwa Cyfryzacji i zrealizowaliśmy pilotażowe wdrożenia modeli PLLuM w wybranych urzędach. Równolegle prowadzimy prace badawcze. Jednym z najbardziej ambitnych tegorocznych eksperymentów jest trening modelu o rozmiarze 24B parametrów od wag losowych. Wcześniejsze modele powstawały w wyniku adaptacji językowej, czyli kontynuacji pretreningu wielojęzycznych modeli fundamentalnych, co jest obecnie powszechną i efektywną praktyką. Nasz eksperyment ma odpowiedzieć na pytanie, czy w polskich warunkach możliwe jest stworzenie dużego, w pełni transparentnego modelu językowego od podstaw, w oparciu o własne dane. W tym celu zgromadziliśmy około 850 miliardów tokenów w języku polskim i angielskim. Obecnie kończymy etap posttreningu i wkrótce będziemy mogli ocenić jego rezultaty.
Z kim współpracujecie przy rozwoju modelu PLLuM?
Modele PLLuM rozwijamy w konsorcjum ośmiu ośrodków naukowych oraz jednostek realizujących projekty IT dla sektora publicznego. W tym roku liderem projektu jest Naukowa i Akademicka Sieć Komputerowa – Państwowy Instytut Badawczy. W skład konsorcjum wchodzą: Akademickie Centrum Komputerowe Cyfronet AGH, Centralny Ośrodek Informatyki, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Instytut Slawistyki Polskiej Akademii Nauk, Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy, Politechnika Wrocławska oraz Uniwersytet Łódzki.
Każda z tych jednostek wnosi do projektu unikatowe kompetencje, które razem pozwalają domknąć cały cykl życia modelu – od pozyskiwania i przygotowania danych, przez trening i ewaluację, aż po wdrożenia. Na co dzień w prace projektowe zaangażowanych jest ponad 120 osób zatrudnionych w jednostkach konsorcyjnych. Są to przede wszystkim informatycy i lingwiści, ale także prawnicy, socjologowie oraz eksperci ds. bezpieczeństwa. Dodatkowo, przy tworzeniu danych do uczenia i ewaluacji modeli, wspierają nas eksperci domenowi, m.in. urzędnicy, prawnicy czy psychologowie.
Projekt realizujemy w ścisłej współpracy z instytucjami publicznymi, które pomagają przekładać możliwości technologiczne na realne potrzeby użytkowników: z Ministerstwem Cyfryzacji, które finansuje nasze prace i jest jednym z kluczowych partnerów wdrożeniowych, a także z urzędami miast i innymi jednostkami publicznymi, gdzie prowadzimy pilotażowe wdrożenia i zbieramy wymagania funkcjonalne – na przykład dla takich zadań jak upraszczanie języka urzędowego.
Równolegle rozwijamy współpracę z dostawcami danych, w tym z wydawnictwami, które mogą zasilać nasze zasoby treningowe. Choć efekty tych działań są nadal ograniczone, w tym roku – dzięki zabezpieczonemu budżetowi na zakup danych – udało nam się pozyskać wartościowe zbiory, m.in. wysokiej jakości teksty prasowe.
Nie jest też tajemnicą, że niedawno nawiązaliśmy współpracę z francuską firmą Mistral AI. O szczegółach nie mogę jeszcze mówić, mogę natomiast zdradzić, że jej efektem będą nowe, wspólne modele.
Jak wyglądała praca nad trenowaniem modelu – z jakimi wyzwaniami musieliście się zmierzyć?
Jak już wspomniałam, mieliśmy ułatwiony start – dysponowaliśmy własnymi zasobami oraz solidnym przygotowaniem metodologicznym. Nie zmienia to jednak faktu, że trening dużych modeli językowych wciąż w dużej mierze odbywa się metodą prób i błędów. Sam proces uczenia i dostrajania modeli jest dziś technicznie coraz łatwiejszy, głównie dzięki dostępności gotowych narzędzi. Nadal jednak istotna część wiedzy pozostaje niejawna lub słabo udokumentowana, co sprawia, że wiele decyzji trzeba podejmować na podstawie doświadczenia i eksperymentów.
Od początku towarzyszyły nam bardzo wysokie oczekiwania. Modele PLLuM miały być bezpieczne, uczone na w pełni legalnych danych i rozwijane w sposób transparentny. W pierwszym roku największym wyzwaniem okazało się zebranie danych do pretreningu, zwłaszcza w kontekście zmieniających się przepisów prawa autorskiego w Polsce. Dziś skala tego wyzwania wcale nie jest mniejsza – musimy bowiem stosować się również do postanowień AI Act – ale mamy już jasno zdefiniowane procedury i wiemy, na jakich zasadach możemy działać. W praktyce tylko około 5–10% zgromadzonych przez nas danych spełnia kryteria pozwalające na ich wykorzystanie do treningu w pełni otwartych modeli. Jako jednostki naukowe możemy korzystać z szerszego zasobu danych, ale wyłącznie do uczenia modeli objętych ograniczonymi licencjami, przeznaczonych do zastosowań naukowych.
Bardzo wysoko postawiliśmy również poprzeczkę w obszarze danych do posttreningu, czyli danych instrukcyjnych i preferencyjnych. Podczas gdy wielu twórców modeli generuje je syntetycznie, z wykorzystaniem innych modeli językowych, my zdecydowaliśmy się na podejście organiczne – ręczne tworzenie danych przez anotatorów i anotatorki według ścisłych wytycznych. Był to proces niezwykle żmudny i czasochłonny, ale opłacalny. Pozwolił nam zadbać o wysoką poprawność językową odpowiedzi modeli, bez kalk z języka angielskiego, a jednocześnie zbudować unikatowe kompetencje, którymi dzielimy się z innymi badaczami i entuzjastkami AI, publikując próbki danych na otwartych licencjach. Nasze modele nie mają tak szerokiego spektrum umiejętności jak wielojęzyczne modele instrukcyjne, ale w obszarach, dla których tworzymy dedykowane instrukcje, generują treści bardzo wysokiej jakości.
W tym roku uzupełniamy zasób danych organicznych o dane syntetyczne, jednak tworzone pod ścisłą kontrolą i weryfikowane ręcznie. Opracowywanie danych, kontrola ich jakości oraz łączenie ich w odpowiednich proporcjach nadal pozostają dużym wyzwaniem. Z perspektywy posttreningu istotnym problemem jest również zachowanie równowagi między pomocnością modeli a ich bezpieczeństwem. Na etapie wychowania (ang. alignment) zabezpieczamy modele przed generowaniem treści nielegalnych, nieetycznych czy obraźliwych i robimy to na satysfakcjonującym poziomie – modele PLLuM wykazują dużą odporność na próby obejścia zabezpieczeń. Każde wzmocnienie poziomu bezpieczeństwa ma jednak swoją cenę: modele mogą nadmiernie odmawiać odpowiedzi. Dlatego stale pracujemy nad poprawą zabezpieczeń, ale nie kosztem ograniczania użyteczności modeli.
Osobnym wyzwaniem pozostaje ewaluacja. Łatwo zakotwiczyć się w popularnych benchmarkach, ale ogólne testy nie zawsze dobrze oddają realną wartość modelu w konkretnych zastosowaniach. Cieszy nas, że modele PLLuM dobrze wypadają w benchmarkach, jednak nie dostrajamy ich pod konkretne testy, tylko pod rzeczywiste potrzeby i scenariusze wdrożeniowe.
Jakie są przykłady wdrożeń PLLuM w organizacjach? Jakie branże najczęściej zgłaszają zainteresowanie wdrożeniami?
W tym roku koncentrujemy się przede wszystkim na wdrożeniach w administracji publicznej i to właśnie jednostki administracji centralnej oraz samorządowej są naszymi głównymi partnerami. To naturalne, że urzędy sięgają po rozwiązania krajowe – w duchu suwerenności technologicznej, ale także ze względu na szeroko rozumiane bezpieczeństwo, które zapewniają modele lokalne. Myślę, że nie będzie przesadą stwierdzenie, że odkąd ruszył projekt HIVE AI, praktycznie nie ma tygodnia, w którym nie zgłosiłby się do nas urząd zainteresowany wdrożeniem modeli PLLuM.
Najczęściej pierwszym obszarem zastosowania jest usprawnienie komunikacji z obywatelami. Urzędy wybierają w tym celu systemy oparte na podejściu RAG (Retrieval Augmented Generation), które wykorzystują m.in. dane z Biuletynu Informacji Publicznej. Systemy te, w formie inteligentnych asystentów i chatbotów, przejmują obsługę części zapytań obywateli, odciążając pracowników administracji. Kolejnym krokiem są voiceboty, czyli systemy obsługujące interakcje głosowe, na przykład w infoliniach urzędowych.
Wiele wysiłku wkładamy w dostosowanie modeli do specyficznych potrzeb urzędów. Obejmuje to rozwój wiedzy z zakresu administracji publicznej, uczenie realizacji zadań biurowo-administracyjnych, generowanie tekstów prawniczych i urzędowych zgodnie z autorską typologią, a także upraszczanie skomplikowanych dokumentów w celu zwiększenia ich zrozumiałości dla obywateli. Jednocześnie nie zapominamy o potrzebach użytkowników indywidualnych i biznesowych. Modele PLLuM rozwijamy pod kątem znajomości polskiego kontekstu językowego, historycznego i kulturowego, rozumowania logicznego oraz zdolności do pracy w scenariuszach opartych na RAG. Staramy się także systematycznie uzupełniać zidentyfikowane luki kompetencyjne modeli.
Polskie modele językowe zyskują uznanie nie tylko w administracji publicznej, ale także w sektorze prywatnym, szczególnie tam, gdzie kluczowe są bezpieczeństwo danych oraz lokalna kontrola nad modelem. Z modeli PLLuM korzystają już m.in. Comarch i PKO BP, a kolejne banki, firmy ubezpieczeniowe oraz technologiczne zgłaszają się do nas po konsultacje i testy. Rosnące zainteresowanie obserwujemy również w branżach prawnej, edukacyjnej i medycznej. Mamy nadzieję, że nowa generacja modeli PLLuM, udostępniona w styczniu lub lutym, jeszcze lepiej odpowie na te potrzeby.
Czy może Pani podzielić się historią ostatniego wdrożenia?
Ostatnie wdrożenie zrealizowaliśmy w Urzędzie Miasta Poznań, a konkretnie w Biurze Poznań Kontakt. Wykorzystaliśmy opracowaną w projekcie PLLuM i rozwijaną w ramach HIVE AI aplikację ShpaRAG, która wspiera szybkie prototypowanie, testowanie oraz przygotowywanie zbiorów danych do rozwiązań typu RAG. Aplikacja umożliwia nie tylko konfigurację pełnego procesu RAG, ale także ocenę jego działania przez użytkowników końcowych.
Prace rozpoczęliśmy od serii spotkań z przedstawicielami urzędu, których celem było zdiagnozowanie realnych potrzeb oraz ustalenie, czy takie rozwiązanie może faktycznie wspierać urzędników w codziennej pracy. Skupiliśmy się na obsłudze zapytań obywateli, które wymagają przeszukiwania rozproszonych i obszernych zbiorów dokumentów. Po pozytywnej ocenie urząd przekazał nam dane z kilku wydziałów. Na ich podstawie przygotowaliśmy bazę wiedzy, którą następnie załadowaliśmy do systemu. Asystent został uruchomiony na bezpiecznej infrastrukturze ACK Cyfronet, z dostępem ograniczonym wyłącznie do pracowników urzędu.
Grupę testową stanowili Brokerzy Informacji Merytorycznej – pracownicy infolinii bezpośrednio obsługujący zapytania poznaniaków i poznanianek. W trakcie pilotażu wprowadziliśmy kilka istotnych modyfikacji: rozbudowaliśmy mechanizmy logowania oraz archiwizacji konwersacji, dopasowaliśmy wyszukiwanie dokumentów i proces rerankingu, a także skonfigurowaliśmy model w taki sposób, aby udzielał odpowiedzi wyłącznie na podstawie dostępnych dokumentów. W sytuacji braku informacji asystent jasno komunikował brak odpowiedzi, zamiast generować domysły.
Wyniki testów okazały się bardzo obiecujące. Około 90% odpowiedzi asystenta było w pełni poprawnych, a pozostałe wymagały doprecyzowania lub były puste. Zaledwie kilka odpowiedzi spośród blisko dwóch tysięcy interakcji okazało się błędnych. Co istotne, udało się również zidentyfikować przyczyny pustych odpowiedzi, co pozwala przypuszczać, że w kolejnej turze testów skuteczność asystenta powinna jeszcze wzrosnąć. To ważny krok, który pokazuje, że modele PLLuM mogą realnie wspierać administrację publiczną – skracając czas obsługi zapytań i ułatwiając codzienną pracę brokerów informacji.
Jak wygląda proces wdrożenia w praktyce – od pomysłu po działające rozwiązanie?
Proces wdrożenia może wyglądać różnie w zależności od sektora i organizacji. W przypadku administracji publicznej – która jest dziś naszym głównym obszarem wdrożeń – trudno mówić o jednym, uniwersalnym schemacie, ponieważ wszystko zależy od stopnia gotowości instytucji decydującej się na wykorzystanie modeli językowych. Czasem wystarczą konsultacje, a jednostka jest w stanie przeprowadzić cały proces samodzielnie – przykładem może być Urząd Marszałkowski Województwa Lubuskiego, który wdrożył modele PLLuM zaledwie kilka dni po ich publikacji w lutym tego roku. W innych przypadkach konieczne jest rozpoczęcie pracy od podstaw.
Przyjmujemy model centralnego rozwoju i lokalnych wdrożeń: modele PLLuM są rozwijane przez konsorcjum HIVE AI, a poszczególne instytucje administracji publicznej wdrażają je przy naszym wsparciu, zgodnie ze swoimi potrzebami i możliwościami.
Sam proces wdrożenia ma charakter iteracyjny. Nie jest to jednorazowe uruchomienie nowego narzędzia, ale cykl testów, zbierania informacji zwrotnych, wprowadzania poprawek i ponownej ewaluacji, prowadzony aż do osiągnięcia satysfakcjonującego poziomu jakości. Na każdym etapie kluczowe znaczenie ma bezpieczeństwo danych – podpisujemy umowy regulujące przekazywanie i przetwarzanie informacji zgodnie z przepisami o ochronie danych osobowych, bezpieczeństwie informacji oraz regulacjami administracyjnymi.
Pierwszym krokiem jest zawsze diagnoza potrzeb. Poznajemy sposób organizacji pracy w danej instytucji i wspólnie identyfikujemy obszary, w których asystent może realnie wspierać urzędników. Prezentujemy działanie narzędzia, pokazujemy przykłady jego zastosowania i ustalamy, jakie dane są potrzebne oraz w jakiej formie powinny zostać przygotowane. Zdarza się, że urząd dysponuje dobrze opracowanymi danymi, które po niewielkich korektach mogą zasilić bazę wiedzy, ale bywa też, że dane trzeba pozyskać od nowa lub ich obróbka wymaga znacznych nakładów pracy. Równolegle analizujemy infrastrukturę – sprawdzamy, czy urząd posiada odpowiednie zasoby obliczeniowe do uruchomienia modelu, a jeśli nie, przygotowujemy wdrożenie na zewnętrznych, bezpiecznych serwerach.
W praktyce oznacza to ścisłą współpracę pomiędzy zespołem PLLuM a urzędem. My odpowiadamy za rozwój i konfigurację modelu, przygotowanie środowiska produkcyjnego, wsparcie w zakresie danych oraz szkolenia z obsługi asystenta. Po stronie urzędu leży codzienne korzystanie z systemu, jego ocena oraz zgłaszanie uwag dotyczących błędów czy niskiej jakości generowanych treści.
Współpraca instytucji naukowych z administracją publiczną przy wdrażaniu AI wiąże się ze specyficznymi wyzwaniami. Komunikacja bywa trudna: naukowcy pracują w rytmie eksperymentów, administracja – w rytmie procedur i przepisów. Specjalistyczna wiedza o AI w urzędach wciąż jest ograniczona, a standardy i gotowe plany wdrożeń dopiero się kształtują. Dlatego tak istotną rolę odgrywają dobrze zaprojektowane pilotaże.
Na każdym etapie kluczowe pozostają dwa czynniki: dane i infrastruktura. Wiele danych urzędowych jest dostępnych w formie cyfrowej, ale często są one nieustrukturyzowane i pozbawione metadanych. Dodatkowo obowiązują istotne ograniczenia prawne, takie jak RODO czy tajemnica służbowa. Drugim krytycznym elementem jest infrastruktura – wdrożeń nie da się realizować na laptopach, a niewiele urzędów posiada własne zaplecze serwerowe. Inwestycje w krajową infrastrukturę są więc niezbędne, aby administracja mogła samodzielnie i bezpiecznie korzystać z AI. Jak widać, wdrożenie modeli językowych w urzędach nie jest wyłącznie wyzwaniem technologicznym. To zadanie przede wszystkim organizacyjne, prawne i infrastrukturalne.
W jakim kierunku zamierzacie rozwijać model PLLuM?
Pomysłów jest sporo i nie wszystkie mogę jeszcze zdradzić na tym etapie. W kolejnych projektach PLLuM na pewno będziemy rozwijać model w kierunku wielomodalności – chcemy, aby przetwarzał nie tylko tekst, ale też obrazy. To naturalny krok, który pozwala lepiej odpowiadać na potrzeby użytkowników i rozszerzać zakres możliwych zastosowań.
Kolejnym ważnym kierunkiem rozwoju są modele wnioskujące, czyli takie, które lepiej radzą sobie z rozumowaniem wieloetapowym. Tego typu podejście zwiększa poprawność i merytoryczność odpowiedzi, zwłaszcza w zadaniach matematycznych, logicznych oraz w pytaniach otwartych. Prowadzimy obecnie eksperymenty z treningiem takich modeli, testując różne zbiory danych i strategie uczenia. To zadanie nietrywialne i wciąż wymagające sporo pracy, ale widzimy w nim duży potencjał z perspektywy wdrożeń w administracji publicznej.
Trzecim istotnym kierunkiem rozwoju jest tzw. tool calling, czyli możliwość bezpośredniego korzystania przez model z zewnętrznych narzędzi. W praktyce oznacza to, że LLM nie tylko odpowiada na pytania, ale może także wykonywać konkretne działania w ramach dostępnych systemów. Prace w tym obszarze zostały już rozpoczęte i będą kontynuowane w przyszłym roku.
Jeżeli chodzi o moje plany osobiste, planuję zmniejszyć zaangażowanie w sprawy administracyjne związane z zarządzaniem tak dużym konsorcjum i poświęcić więcej czasu pracy badawczej. Jednocześnie chcę koncentrować się na wdrożeniach modeli w różnych obszarach, nie tylko w administracji publicznej. Pilotaże są ważne, bo pozwalają sprawdzić, jak model działa w realnym środowisku, jednak prawdziwe wyzwanie – i największa satysfakcja – zaczynają się wtedy, gdy rozwiązania trafiają do użytku produkcyjnego i realnie wpływają na sposób pracy ludzi.
Co Pani zdaniem, najbardziej przyspieszyłoby rozwój ekosystemu polskich modeli językowych?
Kluczowe jest oczywiście odpowiednie i długofalowe finansowanie – nie tylko infrastruktury, ale przede wszystkim ludzi. Nawet dysponując największym superkomputerem w Europie, bez doświadczonych zespołów nie będziemy w stanie w pełni wykorzystać jego potencjału. Równie ważne jest to, aby nie sięgać po najprostsze recepty w postaci gotowych rozwiązań od dużych korporacji, ale konsekwentnie inwestować we własne modele oraz rozwój kompetencji w kraju.
Istotnym elementem rozwoju ekosystemu jest także faktyczna, a nie jedynie deklaratywna, otwartość i transparentność po stronie twórców lokalnych modeli językowych. Mam tu na myśli przede wszystkim publikowanie szczegółowej dokumentacji oraz – tam, gdzie to możliwe – zbiorów danych uczących. To właśnie otwartość sprzyja powstawaniu nowych inicjatyw, ułatwia wymianę wiedzy i pozwala szybciej budować kompetencje w całym środowisku.
W Polsce utrwaliła się narracja o pewnym „duopolu” – z jednej strony modeli PLLuM rozwijanych w projektach publicznych, z drugiej modeli Bielik wywodzących się ze środowisk społecznościowych. Choć w praktyce nie rywalizujemy ze sobą bezpośrednio, a w rozwój PLLuM zaangażowani są także członkowie społeczności Speakleash, ten podział bywa postrzegany w kategoriach konkurencji. W mojej ocenie nie sprzyja to rozwojowi całego ekosystemu.
Liczę, że dzięki większej transparentności, publikacji danych i dokumentacji, w Polsce powstaną kolejne, niezależne modele językowe. Zwiększy to różnorodność dostępnych rozwiązań, przyspieszy rozwój rynku i pozwoli budować trwały i silny ekosystem polskich modeli językowych.
dr Agnieszka Karlińska – adiunktka i kierowniczka Zakładu Dużych Modeli Językowych w Ośrodku Badań nad Bezpieczeństwem Sztucznej Inteligencji NASK PIB. W 2024 roku kierowała projektem PLLuM, którego celem było utworzenie polskiego dużego modelu językowego. Od 2025 roku stoi na czele konsorcjum HIVE AI, rozwijającego modele PLLuM oraz wdrażającego je w systemach administracji publicznej. Prowadzi badania z zakresu automatycznego przetwarzania i analizy tekstu, łącząc kompetencje humanistyczno-społeczne i techniczne. Zajmuje się budową bezpiecznych i wiarygodnych dużych modeli językowych oraz tworzeniem narzędzi do wykrywania treści szkodliwych. Skupia się w szczególności na ewaluacji skłonności LLM-ów do generowania treści toksycznych i dyskryminujących oraz na przeciwdziałaniu występowaniu obciążeń na różnych etapach tworzenia modeli.