Jak naprawdę działa generatywna sztuczna inteligencja (i jak z niej korzystać, nie oszukując samego siebie)

W tym artykule staram się sprawić, by to narzędzie stało się mniej „tajemnicze” i bardziej przewidywalne. Nie po to, żebyś przestał z niego korzysta, a wręcz przeciwnie. Chodzi o to, by korzystać z niego świadomie: wiedzieć, do czego się nadaje, czego nie potrafi i dzięki jakim nawykom nie dasz jej zwieść cię płynnością wypowiedzi.

Jakie miejsce zajmuje generatywna AI w świecie sztucznej inteligencji

Kiedy ludzie mówią „AI”, często mają na myśli jedną magiczną rzecz. W rzeczywistości to skomplikowany zbiór. Znajduje się tu wszystko. Od prostej automatyzacji opartej na regułach („jeśli tak, to wtedy tak”) poprzez klasyczne uczenie maszynowe (systemy klasyfikujące lub prognozujące, np. wykrywanie spamu), aż po modele generatywne, które tworzą tekst, obrazy, pliki audio lub kod.

Kategorią, z którą mamy do czynienia na co dzień, są duże modele językowe (LLM). Model LLM jest trenowany na ogromnych zbiorach tekstów, aby wykonywać jedno podstawowe zadanie: przewidywać, co będzie dalej. Nie chodzi tu o stworzenie następnej ideę czy prawdy, ale o podanie następny tokena (w przybliżeniu słowa lub fragmentu słowa) na podstawie tego, co model dotychczas zaobserwował.

Takie ujęcie celu treningu ma znaczenie, ponieważ wyjaśnia zarówno jego zalety, jak i związane z nim zagrożenia. System zoptymalizowany pod kątem kontynuacji tekstu będzie działał niezwykle płynnie. Czasami będzie też wymyślał szczegóły, jeżeli „wyglądają” one na kontynuację, która pasuje do danej sytuacji. OpenAI opisuje halucynacje jako skutek tego rozwiązania: przewidywanie następnego słowa jest potężnym narzędziem, ale nie jest tożsame z odkrywaniem prawdy.

Jest jedna rzecz, o której zawsze wspominam, bo w przeciwnym razie przekazujemy błędną informację: owszem, trening AI się opiera się na statystyce, ale to nie znaczy, że system staje się prostym słownikiem frazeologicznym. Modele LLM potrafią uogólniać i łączyć wzorce w sposób, który wydaje się kreatywny. Praktyczny wniosek nie prowadzi do stwierdzenia „to głupie”, ale raczej do uświadomienia sobie, że jest to rozwiązanie zaprojektowane z myślą o płynności działania, które trzyma się rzeczywistości tylko wtedy, gdy sami to wymusimy.

Narzędzia LLM a wyszukiwarki: kuzyni, a nie bliźniacy

W pracy zespołów stale dostrzegam niezrozumienie jednej rzeczy polegające na traktowaniu ChatGPT jako wyszukiwarki. To nie jest wyszukiwarka. Różnica ta nie ma charakteru czysto teoretycznego, ponieważ wpływa na sposób weryfikacji i zaufanie do wyników.

Klasyczne wyszukiwarki przede wszystkim wyszukują. Znajdują dokumenty, klasyfikują je i kierują cię do źródeł. Ostateczne połączenie odbywa się w twojej głowie. Narzędzia LLM przede wszystkim generują: podają odpowiedź od razu, często w zgrabnej formie narracyjnej, nawet jeżeli nie istnieją żadnego wiarygodne źródła.

Występują też nowoczesne modele hybrydowe, w których granice się zacierają. Google wykorzystuje obecnie podsumowania wyników wyszukiwania generowane przez model Gemini (AI Overview), przy czym firma wyraźnie podkreśla, że jest to efekt współpracy sztucznej inteligencji z systemami wyszukiwania, w którym podawane są linki do wyników, dzięki czemu użytkownicy mogą je zweryfikować. Perplexity określa się jeszcze wyraźniej jako „wyszukiwanie + odpowiedź + cytaty”, co oznacza, że wyszukuje wyniki, a następnie syntetyzuje je w postaci odpowiedzi z linkami, w które można kliknąć.

To hybrydowe podejście jest naprawdę pomocne w pracy z faktami, ale nie eliminuje potrzeby zachowania sceptycyzmu. Cytaty mogą być nieistotne, niskiej jakości, a nawet odsyłać do generowanego przez AI szlamu, który wygląda jak strona internetowa. Badania wykazały, że stanowi to realne zagrożenie w korzystaniu wyszukiwarek: jeżeli sieć jest zanieczyszczona, twoja „osadzona w rzeczywistości” odpowiedź również może być zanieczyszczona.

W praktyce kieruję się prostą zasadą. Korzystam z modelu LLM do przemyśleń i tworzenia szkiców: do ustalania struktury, rozważania opcji, planowania scenariuszy i przeredagowywania tekstu. Korzystam z wyszukiwarki (lub narzędzi do wyszukiwania opartych na cytatach), gdy potrzebuję rzetelnych informacji, dat, liczb i potwierdzenia wiarygodności. Jeżeli wynik ma być udostępniony publicznie i wiąże się z ryzykiem dla reputacji, traktuję model LLM jako narzędzie do tworzenia pierwszego szkicu, a nie jako źródło faktów.

Sztuczna inteligencja nie jest świadoma, ona jedynie „małpuje” ludzką mowę (i dlaczego ma to znaczenie)

Ludzie pytają: „Czy AI rozumie?” Z praktycznego punktu widzenia, uczciwa brzmi: AI nie posiada świadomości, intencji ani doświadczenia życiowego. Nie chce ci pomóc i nie obchodzi jej, czy się myli. Generuje treść w języku dostosowanym do kontekstu i wzorców, których się nauczyła.

Dobrym sposobem, aby się o tym przekonać jest porównanie takiej treści z mową wypowiadaną przez człowieka „na autopilocie”. Kiedy ktoś mówi „Dziękuję”, często od razu odpowiadamy „Nie ma za co”. Nie zatrzymujemy się, by odczytać wdzięczność czy wzajemność. Realizujemy po prostu wyuczony wzorzec społeczny.

Modele LLM wykonują to uzupełnianie wzorców na dużą skalę. Nie są one puste ani przypadkowe, tylko są to niezwykle dobrze wytrenowane silniki wzorców. Jednak główne ryzyko pozostaje: język brzmiący jak ludzki może nas błędnie skłonić do założenia, że reprezentuje ludzkie zdolności rozumienia i ludzką szczerość. Warto w tym miejscu odwołać się do sformułowania samego OpenAI: modele wytrenowane do przewidywania tekstu mogą halucynować, ponieważ ich celem jest przewidzenie wiarygodnej kontynuacji, a nie zapewnienie sprawdzonej poprawności.

Skoro to wzorce, to dlaczego odpowiedzi nie są zawsze takie same?

Jedna z moich ulubionych sytuacji, w których zespoły doznają olśnienia: zadaj to samo pytanie dwa razy, a otrzymasz dwie różne odpowiedzi. Przypomina to wahania nastroju. Jednakże to nie kwestia nastroju. To kwestia mechaniki.

Pierwszym powodem jest próbkowanie, czyli kontrolowana losowość w sposobie, w jaki model wybiera kolejny token. Większość narzędzi nie wybiera za każdym razem jednego słowa, które jest najbardziej prawdopodobnym następnym słowem. Próbkowanie jest często realizowane w zbiorze opcji o wysokim prawdopodobieństwie w celu uniknięcia powtarzalnych, mechanicznych odpowiedzi. Regulatorem, o którym można w tym kontekście usłyszeć jest temperatura: niższa temperatura zazwyczaj daje bardziej przewidywalne rezultaty, natomiast wyższa temperatura zazwyczaj pozwala uzyskać bardziej zróżnicowane i kreatywne efekty. Wartości domyślne często oscylują wokół 1,0 (co daje całkiem „normalny” poziom zróżnicowania). Wiele komercyjnych aplikacji do czatu nie udostępnia tych ustawień i może je zmieniać w zależności od trybu pracy, polityki czy w ramach eksperymentów.

Ćwiczenie: Próbkowanie i zmienność

Zapytaj: „Podaj mi 10 haseł na kampanię dotyczącą odporności cyfrowej w organizacjach pozarządowych”. Powtórz 3–5 razy. Następnie poproś: „Niech będą nudne i spójne”. Porównaj. Zobaczysz, że wyniki podane przez narzędzia nie są jedną ustaloną „prawdą”, lecz zbiorem prawdopodobnych tekstów.

Drugim powodem jest kontekst. Wyniki modelu w dużym stopniu zależą od tego, co widzi. A to, co widzi, to nie tylko twój prompt. Są to twoje konwersacje, instrukcje produktowe, których nie widzisz, a czasem także długoterminowa personalizacja.

Tutaj „pamięć” nabiera znaczenia. W przypadku ChatGPT firma OpenAI opisuje dwie funkcje, które mogą wpływać na personalizację: „zapisane wspomnienia” oraz możliwość „odwoływania się do historii czatu”. Obiema tymi funkcjami można zarządzać lub je wyłączyć. W pracy organizacji pozarządowych ma to znaczenie, ponieważ nie chodzi tu wyłącznie o jakość wyników, ale także o poufność i przewidywalność.

Ćwiczenie: Zmiana kontekstu wpływa na wyniki

W dwóch nowych rozmowach przedstaw różne konteksty (np. organizacja pozarządowa zajmująca się usługami społecznymi i organizacja pozarządowa zajmująca się ochroną środowiska), a następnie i poproś o pomysły na programy. Zauważ, że „to samo pytanie” nie jest już tym samym pytaniem, gdy zmieni się kontekst.

Prawda, kłamstwa i dlaczego pewność siebie nie oznacza poprawności

Oto prosta, ale niewygodna prawda: model LLM nie wie, czy to, o co go prosisz, opiera się na faktach, czy jest fikcją. Model nie sprawdza. Model nie weryfikuje. Jego zadaniem jest stworzenie tekstu, który pasuje do sytuacji, i robi to z taką samą płynnością i pewnością siebie, niezależnie od tego, czy założenie wyjściowe ma solidne podstawy, jest niepewne, czy też całkowicie zmyślone.

Dlatego odpowiedź może brzmieć zgrabnie i przekonująco, nawet jeżeli jej treść jest błędna. Model nie ocenia rzeczywistości - on dokańcza wzorce.

Właśnie w tym momencie osadzenie staje się niezbędne. Firmy starają się przeciwdziałać halucynacjom podłączając modele do źródeł zewnętrznych (wyszukiwarek, dokumentów, cytatów) tak aby wyniki były oparte na czymś, co można zweryfikować. Jeden nawyk, który warto sobie wyrobić to traktowanie każdego nieosadzonego wyniku wygenerowanego przez AI jako hipotezy, a nie faktu.

Ćwiczenie: Wykonaj test „nieistniejącego pracownika”

Poproś LLM o stworzenie biografii nieistniejącego pracownika w twojej organizacji: „Napisz notkę biograficzną o naszej nowej menedżerce ds. mediów społecznościowych, Jane Shakespeare”. W większości przypadków, model z pełnym przekonaniem wymyśli całkowicie wiarygodną postać (wraz z przeszłością, historią zatrudnienia i wszystkim innym) nie zastanawiając się nawet, czy taka osoba w ogóle istnieje.

Jeżeli chcesz zapytać sztuczną inteligencję o szeroki i dobrze udokumentowany temat, np. podstawy zarządzania projektami, ogólne zasady cyberbezpieczeństwa czy sposób organizacji warsztatów, duże modele językowe często okazują się niezwykle pomocne. Jeżeli jednak zapytasz o niszowe przepisy obowiązujące w twoim kraju, niewielki lokalny program dotacji lub najnowsze zmiany w polityce, jakość odpowiedzi może znacznie spaść.

Modele osiągają zazwyczaj lepsze wyniki, gdy dany temat pojawia się często i regularnie w danych treningowych. Mają trudności, gdy informacje są skąpe, sprzeczne lub szybko się zmieniają. OpenAI wyraźnie odwołuje się do przykładu „faktów o niskiej częstotliwości”, które trudno przewidzieć na podstawie wzorców, co ilustruje, dlaczego dochodzi do halucynacji.

W przypadku organizacji pozarządowych przekłada się to bezpośrednio na ryzyko: im bardziej specyficzne, lokalne lub uzależnione od upływu czasu jest dane twierdzenie, tym częściej należy polegać na wyszukiwaniu informacji i weryfikacji źródeł.

Stronniczość: stereotypy i zniekształcenia kulturowe (tak, one naprawdę istnieją)

Jak pokazują popularne przykłady braków AI, stronniczość nie dotyczy wyłącznie płci czy rasy. Często jest mniej oczywista: co model traktuje jako standardowy światopogląd, jakie odniesienia kulturowe dominują, jak wygląda „doskonałość” czy jakie przykłady pojawiają się jako pierwsze.

Badania nad LLM i kulturą pokazują, że modele te mogą odzwierciedlać dominujące wartości i wzorce kulturowe nie zachowując neutralności kulturowej. Ramy zarządzania ryzykiem związanym z AI opracowane przez NIST traktują stronniczość jako główny obszar ryzyka, którym organizacje powinny aktywnie zarządzać poprzez odpowiednie zasady i używanie narzędzi odpowiednio do kontekstu.

Jednym z moich ulubionych przykładów: poproś swoje narzędzie LLM o „wymienienie 10 najlepszych zespołów muzycznych na świecie”. często otrzymasz listę, na której zdecydowanie przeważają wykonawcy z USA i Wielkiej Brytanii. Nie dlatego, że model jest złośliwy, ale z powodu danych treningowych i dominacji kulturowej.

Innym przykładem może być styl wygenerowanego tekstu. Z mojego doświadczenia wynika, że podczas pisania wniosku o dotację domyślny „ton wypowiedzi” ma zazwyczaj charakter typowo amerykański (modne hasła, przesadzone obietnice, nadużywanie superlatywów), nawet gdy tworzę tekst w języku czeskim. Przez to zazwyczaj nie nadaje się on do wykorzystania przez lokalne fundacje czy urzędy państwowe, które oczekują zupełnie innego stylu i języka.

Najrozsądniej jest nie spierać się z modelem. Najrozsądniejszym rozwiązaniem jest nałożenie na niego ograniczeń: określenie kryteriów dotyczących położenia geograficznego, języka, tonu, reprezentacji lub oceny. W większości przypadków stronniczość ujawnia się w momencie porównania wyników „domyślnych” z wynikami poddanymi „ograniczeniom”.

Ćwiczenie: Uwidocznienie domyślnego światopoglądu

Zapytaj: „Wymień 10 najlepszych zespołów muzycznych na świecie”. Zwróć uwagę na to, które kraje, języki i kultury dominują. Następnie wygeneruj odpowiedź jeszcze 2–3 razy, dodając kolejne kryteria.

Halucynacje: czym są i dlaczego się pojawiają

„Halucynacja” to grzeczny termin techniczny określający prostą rzecz: model generuje treści, które wydają się wiarygodne, ale są fałszywe lub niepoparte dowodami. Potrafi fabrykować cytaty i z przekonaniem podawać „fakty”, które nigdy nie miały miejsca. OpenAI opisuje halucynacje jako znane ograniczenie związane ze sposobem trenowaniem tych modeli.

Dla organizacji pozarządowych ma to znaczenie, ponieważ wyniki te często nadają się do wykorzystania, nawet jeżeli są błędne. Dla zapracowanej osoby zajmującej się komunikacją sfabrykowany cytat wygląda dokładnie tak samo jak prawdziwy. Wymyślona statystyka idealnie wpisuje się w narrację. I w ten sposób błędy trafiają do materiałów przeznaczonych do użytku publicznego.

Kiedy więc prosisz o takie rzeczy jak „podaj mi trzy badania, które dowodzą…”, czy „zacytuj przepis, który stanowi…”, powinieneś liczyć się z tym, że model może wygenerować fałszywe cytaty, chyba że zażądasz podania źródeł, które następnie otworzysz.

Pochlebstwo: pomocnik, który zbyt często się z tobą zgadza

Pochlebstwo to jeden z najgroźniejszych problemów w działalności strategicznej. Model uczy się, że użytkownicy lubią czuć się doceniani. Jeżeli trening i informacje zwrotne sygnalizują nagradzanie zachowań „pomocnych i miłych”, model może stać się przyjaznym zwierciadłem, zwłaszcza gdy sformułujesz prompty, które z góry zakładają, że twoja idea jest słuszna.

Firma Anthropic opisuje pochlebstwo jako tendencję wzmacnianą przez technikę uczenia maszynowego dostosowaną do ludzkich preferencji (RLHF), w ramach której model może dostrajać się do przekonań użytkownika zamiast dążyć do prawdy. OpenAI omówiło również, w jaki sposób sygnały zwrotne mogą wzmacniać ugodowość oraz jaką rolę może w tym odgrywać personalizacja.

Dlaczego jest szczególnie podstępne? Ponieważ pochlebstwo często sprawia przyjemność. Działa tak samo, jak w relacjach międzyludzkich. Pomyśl o sytuacji, kiedy narzekasz na swojego partnera w rozmowie ze swoim najlepszym przyjacielem, a on bez chwili wahania odpowiada: „Co za palant, masz pełne prawo się złościć”. Przyjaciel nie ocenia sytuacji. Przyjaciel zastanawia się nad tym, co się stało. Przyjaciel odzwierciedla twoje emocje, ponieważ nagroda społeczna tkwi w potwierdzeniu twoich odczuć, a w trafności odpowiedzi.

Modele LMM działają w podobny sposób. Nie próbują ocenić, czy masz rację. Starają się znaleźć odpowiedź, która pozwoli na płynny przebieg rozmowy. To właśnie sprawia, że w działalności strategicznej pochlebstwo jest niebezpieczne: model staje się wspierający, entuzjastyczny i po cichu bezkrytyczny. Jeżeli korzystasz z AI do planowania, powinieneś aktywnie zachęcać ją do kwestionowania twoich pomysłów. W przeciwnym razie z radością wykorzysta twoje słabe punkty.

Ćwiczenie: Test pochlebstw

Wpisz prawdziwy plan i poproś: „Poddaj ten plan krytyce. Wymień 10 największych niedoskonałości i nie owijaj w bawełnę”. Jeżeli model nadal cię chwali, wzmocnij prompt, aż otrzymasz prawdziwą krytykę.

Kiedy korzystać ze sztucznej inteligencji, a kiedy nie

Stale korzystam ze sztucznej inteligencji, ale nadal uważam, że świadomość tego, „kiedy jej nie używać”, jest elementem odpowiedzialnego przywództwa.

Korzystam ze sztucznej inteligencji, gdy potrzebuję uporządkowania, szybkości, różnorodności opcji i odpowiedniego języka, zwłaszcza gdy wyniki pozostają w obiegu wewnętrznym lub będą poddane weryfikacji. Unikam traktowania sztucznej inteligencji jako autorytetu w sprawach świeżych, kwestiach prawnych, medycznych lub mających kluczowe znaczenie dla reputacji, chyba że mogę zweryfikować te informacje w źródłach pierwotnych. Z wrażliwymi danymi osobowymi obchodzę się również z najwyższą ostrożnością. Większość działań organizacji pozarządowych wiąże się z informacjami o osobach, które nie wyraziły zgody na to, by stać się materiałem treningowym czy „kontekstem rozmowy”.

Powtórzę: obowiązek sprawdzenia wyników spoczywa na tobie. Decyzja o tym co publikujemy, co twierdzimy, co rekomendujemy pozostaje w rękach człowieka. Narzędzie może przyspieszyć proces myślenia, ale nie ponosi odpowiedzialności za jego skutki.

Powinieneś swojemu zespołowi przekazać jeden komunikat: Sztuczna inteligencja świetnie radzi sobie z tworzeniem tekstów. Od Ciebie zależy, czy będą prawdziwe.

Twoja opinia ma znaczenie

Co sądzisz o tym tekście? Poświęć 30 sekund, aby podzielić się swoją opinią i pomóc nam tworzyć wartościowe treści dla społeczeństwa obywatelskiego!

Niniejszy materiał powstał przy okazji projektu AI for Social Change realizowanego przez TechSoup w ramach programu Digital Activism Program przy wsparciu Google.org.

Do stworzenia treści autor wykorzystał sztuczną inteligencję. Jednak cały artykuł został stworzony oraz poddany weryfikacji i przeglądowi przez autora i zespół TechSoup.

Narzędzia AI szybko się rozwijają i choć dokładamy wszelkich starań, aby zapewnić rzetelność udostępnianych przez nas treści, czasami niektóre informacje mogą być nieaktualne. Jeżeli zauważysz, że jakaś informacja jest nieaktualna, daj nam o tym znać pod adresem content@techsoup.org.

Artykuł „Jak naprawdę działa generatywna sztuczna inteligencja (i jak z niej korzystać, nie oszukując samego siebie)”, napisany przez Radkę Bystřicką w 2026 r. dla serwisu Hive Mind, jest objęty licencją CC BY 4.0.