Sztuczna inteligencja poprawia wydajność programistów? Badania prezentują zgoła odmienne wnioski

Wyniki badań wskazują, że korzystanie z bazujących na AI narzędzi nie tyle przyspieszyło pracę developerów w znajomych dla nich środowiskach, ile ją spowolniło. Wyniki eksperymentu kwestionują więc panujący pogląd, jakoby sztuczna inteligencja usprawniała wydajność w obszarach, w których jest wdrażana.

Za badanie, którego streszczenia przygotowała redakcja Reuters, odpowiada organizacja non-profit METR skupiająca się na zagadnieniach z zakresu sztucznej inteligencji. Do udziału w eksperymencie zaproszono grupę doświadczonych developerów, on sam polegał zaś na sprawdzeniu, jaki wpływ na wydajność pracy developerów będzie miało udostępnienie im narzędzia w postaci Cursor – popularnego asystenta AI usprawniającego (przynajmniej w teorii) proces pisania kodu.

Developerzy byli przekonani, że dostęp do sztucznej inteligencji znacznie ułatwi ich pracę, co przełoży się na więcej wykonanych zadań w krótszym czasie. Ma to sens, prawda? Tym bardziej mogli się oni zdziwić, gdy nadeszły wyniki badania przeprowadzonego przez METR. Jak się bowiem okazało, AI miało negatywny wpływ na moce przerobowe informatyków.

Co ciekawe, nawet główni autorzy przedsięwzięcia, Nate Rush i Joel Becker, byli zaskoczeni uzyskanymi w jego toku danymi. Mężczyźni zakładali, że Cursor zagwarantuje nawet dwukrotny wzrost prędkości wklepywania kodu do kompilatora, a zamiast tego dostarczył jej spadek. I to niemały, bo sięgający nawet 19%. Sami developerzy z kolei uważali, że oprogramowanie pozwoliło im zaoszczędzić około 20% czasu, co przełożyłoby się na ponad półtorej godziny przy założeniu, że pracowali oni na pełen etat, tj. 8 godzin dziennie.

Analitycy z MERT postanowili więc przyjrzeć się bliżej sytuacji i dotrzeć do tego, dlaczego powszechne korzystanie z, bądź co bądź, niezwykle przydatnego narzędzia odcisnęło negatywne piętno na tempie pracy programistów. Wśród potencjalnych czynników wyszczególniono m.in. przesadny optymizm, z jakim wiele osób podeszło do AI i zbytnią wiarę w możliwości narzędzi. Podkreślono również, że do udziału w badaniu wytypowano doświadczonych (co najmniej 5 lat w branży i ponad 1100 commitów w różnych repozytoriach) developerów, którzy sami przyznali, że mają tendencję do zwalniania po natknięciu się na przeszkodę, z którą mieli już wielokrotnie do czynienia.

Abstrahując od tego, że doświadczenie programistów nierzadko sprawiało, że sztuczna inteligencja nie okazywała się przesadnie pomocna, podkreślili oni, że AI zdecydowanie nie radziło sobie w przypadku co bardziej złożonych środowisk. Biorąc pod uwagę, że badani pracowali na repozytoriach, których średni wiek wynosił 10 lat i które składały się z ponad miliona linii kodu, Cursor zdecydowanie nie miał łatwego zadania. W związku z tym jedynie ok. 44% generowanego przez narzędzie kodu było akceptowane i wykorzystywane w projekcie. Sporo czasu programiści musieli poświęcić także na wprowadzanie poprawek w twórczości zlepka algorytmów i prawdopodobnie to właśnie ten element zaważył na tym, że ich wydajność uległa obniżeniu.

Kiedy oglądaliśmy filmy, zauważyliśmy, że sztuczna inteligencja przedstawiała pewne sugestie dotyczące swojej pracy, a sugestie te były często poprawne, ale nie dokładnie takie, jakie są potrzebne. Deweloperzy mają inne cele niż ukończenie zadania tak szybko, jak to możliwe. Wybierają więc mniej pracochłonną drogę.

Joel Becker

Pełen opis eksperymentu możemy znaleźć na stronie MERT. Naukowcy już teraz zapowiedzieli, że mają zamiar przeprowadzić podobne badania w przyszłości, aby sprawdzić, jak dalszy rozwój technologii wpływa na produktywność korzystających z niej osób.