Polski bank opracował własną AI. Polish RoBERTa to dzieło PKO BP
PKO BP to pierwszy bank w Polsce, który przygotował i podzielił się własną sztuczną inteligencją ze społecznością platformy Hugging Face. Polish RoBERTa 8K to niewielki model, acz jest w stanie poradzić sobie nawet z dłuższymi tekstami napisanymi w naszym rodzimym języku.
PKO Bank Polski pochwalił się, że jest pierwszym bankiem w naszym kraju i jednym z pierwszych w Europie, które postanowiły udostępnić autorski model sztucznej inteligencji na platformie Hugging Face. Wybór na nią padł nie bez powodu, jako że serwis ten to jedno z najpopularniejszych miejsc w sieci wśród twórców oraz użytkowników narzędzi opartych na AI. Z wytworem PKO BP, znanym jako Polish RoBERTa 8K, bądź też po prostu RoBERTa, możemy zapoznać się w tym miejscu.
Polski bank opracował własną AI
Jak możemy przeczytać w opisie projektu, dzieło banku to "model języka polskiego oparty na architekturze RoBERTa, obsługujący długość kontekstu do 8192 tokenów". Modele typu encoder, takie jak ten, mogą zostać z powodzeniem dostrojone do przeróżnych zadań związanych z przewidywaniem tekstu, uwzględniając w tym klasyfikację, wyszukiwanie, tagowanie sekwencji oraz regresji. Podkreślono przy tym, że w takich przypadkach lekkie modele sprawują się znacznie lepiej od masywniejszych, a co za tym idzie bardziej ociężałych, konkurentów w postaci LLM (dużych modeli językowych). Do ich grona zaliczyć możemy m.in. niezwykle popularne GPT od OpenAI.
Oczywiście rozwiązanie takie niesie ze sobą również ograniczenia. Jak możemy przeczytać w serwisie bank.pl, model reprezentacyjny RoBERTa o szerokim oknie kontekstowy potrafi zrozumieć dokumenty, których długość oscyluje w granicy 15 stron A4. Nie zmienia to przy tym faktu, że jest to pierwsze takie narzędzie AI powstałe w naszym kraju. PKO Bank Polski nie omieszkał pochwalić się, że jego najnowszy twór udowadnia, że polska branża sztucznej inteligencji zaczyna być coraz bardziej konkurencyjna i celuje w innowacyjność.
Bardzo mnie cieszy, że jako PKO Bank Polski dołączyliśmy do grona twórców sztucznej inteligencji i jesteśmy obecni na platformie Hugging Face. Chcemy, aby polska społeczność naukowa i deweloperska miała dostęp do mocnych, lokalnych modeli, które rozumieją realia językowe i prawne naszego rynku
W zestawieniu z innymi polskimi enkoderami: oryginalnym polish-roberta-large-v2 oraz herbert-large-cased, polish-roberta-8k wypada naprawdę nieźle. Co prawda w nie każdej konkurencji okazuje się zwycięzcą, niemniej w wielu z nich dość dobitnie zaznacza swoje prowadzenie nad rywalami. Z wynikami z benchmarków KLEJ oraz FinBench możemy zapoznać się na stronie projektu na Hugging Face.
Polish RoBERTa jest owocem współpracy zatrudnionych przez bank inżynierów z ekspertami wchodzącymi w skład zespołu AI Lab z Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI) dowodzonego przez dra Marka Kozłowskiego. Podkreślono przy tym, że opisywany model AI jest jednym z pierwszych produktów powstałych w ramach projektu "Budowa innowacyjnych dużych modeli językowych i platformy usługowej do serwowania modeli wielozadaniowych wewnątrz banku". Przedsięwzięcie uzyskało dofinansowanie ze środków Funduszy Europejskich.
Jakub Dmuchowski, redaktor pcformat.pl