Digital Inspire Blog · AI · Kwiecień 2025
Dałam ten sam prompt ChatGPT, Gemini i Claude'owi. A potem kazałam im się nawzajem ocenić.
Gdzieś między składaniem życzeń wielkanocnych a sprawdzaniem, czy żurek sam się nie zrobi, wpadłam na pomysł tego tekstu.
Pracuję w SEO. Codziennie korzystam z trzech modeli językowych — ChatGPT, Gemini i Claude. Nie tylko zawodowo. Używam ich tak jak większość z was: żeby sprawdzić coś szybko, rozwiązać problem, którego nie chce mi się googlować o 23:00, albo żeby odpowiedzieć na pytanie, które zadało mi dziecko, a ja przez chwilę stałam w ciszy i nie wiedziałam co powiedzieć.
Pomyślałam: co by było, gdybym dała im te same pytania z życia — całkiem zwykłe, codzienne sytuacje — i zobaczyła nie tylko co odpowiadają, ale też co sądzą o odpowiedziach nawzajem?
Zasada była prosta: każdy czat dostaje ten sam prompt. Potem każdy z nich ocenia wszystkich trzech — łącznie z sobą. AI ocenia AI.
Sytuacja 1 / Piszę z błędami. Czy mnie rozumiesz?
Jest środek tygodnia, 22:47. Wpisuję pytanie tak jak myślę — bez poprawiania, bo kto by tam teraz redagował.
📨 Odpowiedzi
| ChatGPT | Gemini | Claude |
|---|---|---|
| Dzień dobry, przepraszamy za opóźnienie w realizacji projektu. Problem leżał po naszej stronie, ale został już rozwiązany. Wysyłkę prześlemy jutro rano. Bardzo przepraszamy za tę sytuację i dziękujemy za cierpliwość. Pozdrawiam, [Twoje imię / nazwa firmy] |
Szanowny Panie / Szanowna Pani [Wpisz Nazwisko/Imię], Kontaktuję się z Państwem, aby szczerze przeprosić za opóźnienie w oddaniu naszego projektu. Przyznaję, że błąd leżał całkowicie po naszej stronie, za co biorę pełną odpowiedzialność. Sytuacja została już opanowana, a wszystkie problemy rozwiązane. Gotowy projekt wyślemy do Państwa jutro z samego rana. Z poważaniem, [Twoje Imię i Nazwisko] |
Dzień dobry, przepraszam za opóźnienie w projekcie — błąd leżał po naszej stronie. Sytuacja jest już opanowana i wysyłamy jutro rano. Bardzo przepraszamy za niedogodności. Pozdrawiam, [imię] |
🔍 Jak każdy ocenił wszystkich trzech
| ChatGPT ocenia | Gemini ocenia | Claude ocenia |
|---|---|---|
| A (własna): 8/10 — poprawna i bezpieczna, ale szablonowa. B (Gemini): 7/10 — za ciężka i zbyt formalna. C (Claude): 9/10 — najkrótsza i najczystsza. | A (ChatGPT): 9/10 — bezpieczna, realizuje wytyczne. B (własna): 8.7/10 — zbyt wylewna. C (Claude): 9.7/10 — idealny balans, krótko i konkretnie. | A (ChatGPT): 8/8/8 — dobra, ale trochę generyczna. B (Gemini): 7/9/7 — za rozbudowana. C (własna): 9/8/9 — najlepsza, choć drobna niespójność w liczbie nadawcy. |
Sytuacja 2 / Głupie pytanie, na które naprawdę chcę znać odpowiedź
Moje dziecko zapytało mnie, czy mamuty by żyły do dziś, gdyby ludzie prehistoryczni jedli popcorn zamiast je polować. Przez chwilę stałam w ciszy. Potem wpisałam.
🦣 Odpowiedzi
| ChatGPT | Gemini | Claude |
|---|---|---|
| Raczej nie. Gdyby prehistoryczni ludzie jedli popcorn zamiast polować na mamuty, mamuty pewnie i tak miałyby ciężko — ich zniknięcie wiąże się też ze zmianami klimatu. Ostatnie włochate mamuty przetrwały na wyspie Wrangla jeszcze ok. 4 tys. lat temu. Co najwyżej wygrałyby kilka dodatkowych sezonów. | Gdyby jaskiniowcy nagle porzucili dzidy i zaczęli chrupać popcorn, mamuty zyskałyby chwilę oddechu, ale prawdopodobnie i tak by wyginęły. Poza tym żeby jeść popcorn, nasi przodkowie musieliby wynaleźć rolnictwo i udomowić kukurydzę (tysiące lat później, w Ameryce). Przynajmniej jednak oglądaliby ten koniec z węglowodanowym usposobieniem! | Prawdopodobnie tak — ale byłoby znacznie nudniej. Mamuty przetrwały w izolacji na wyspach jeszcze kilka tysięcy lat po wymieraniu na lądzie (Wyspa Wrangla, ok. 1700 p.n.e.). Ale gdybyś dziś jechała na safari do Afryki i zobaczyła mamuty — trochę na to zasłużyliśmy jako gatunek. |
🔍 Jak każdy ocenił wszystkich trzech
| ChatGPT ocenia | Gemini ocenia | Claude ocenia |
|---|---|---|
| A (własna): 9/9/9 — serio + lekki humor, dobry przykład Wyspy Wrangla. B (Gemini): 8/9/8 — mocna merytorycznie (kukurydza!). C (Claude): 6/7/8 — „prawdopodobnie tak" to zbyt mocna teza. | A (ChatGPT): 8.3/10 — solidna, ale bez pazura. B (własna): 9.7/10 — świetna, punkt za kukurydzę. C (Claude): 7.0/10 — teza „prawdopodobnie tak" jest naukowo wątpliwa. | A (ChatGPT): 8/8/8 — wyważona. B (Gemini): 7/9/7 — kontrargument z kukurydzą genialny, finał trochę wymuszony. C (własna): 9/8/9 — najlepsza puenta, choć teza odważna. |
Sytuacja 3 / Mama dzwoni z problemem. AI na ratunek.
Przed świętami klasyk: mama myje okna, a po wyschnięciu zostają zacieki. Dzwoni do mnie. Ja nie wiem. Pytam czat.
🪟 Odpowiedzi
| ChatGPT | Gemini | Claude |
|---|---|---|
| Najpewniej dajesz za dużo płynu do naczyń, za twardą wodę, albo wycierasz za późno. Najprostsza naprawa: do wody daj dosłownie kroplę płynu, użyj ciepłej wody, potem od razu wytrzyj szybę do sucha czystą mikrofibrą albo papierem, na koniec przepoleruj suchą szmatką. | Białe zacieki powstają, bo dajesz za dużo płynu lub myjesz okna w słoneczny dzień. Jak to naprawić: dodaj 1–2 krople płynu na wiadro; do ostatniego płukania użyj octu spirytusowego z wodą (1:4); myj w pochmurny dzień; wytrzyj do sucha gazetą lub mikrofibrą. | Problem: płyn do naczyń zostawia osad z surfaktantów, który po wyschnięciu tworzy zacieki. Rozwiązanie: wymieszaj wodę z octem (pół na pół) i wytrzyj do sucha gazetą lub mikrofibrą. Gazeta działa zaskakująco dobrze — nie zostawia włókien. |
🔍 Jak każdy ocenił wszystkich trzech
| ChatGPT ocenia | Gemini ocenia | Claude ocenia |
|---|---|---|
| A (własna): 10/9/10 — najlepsza, bez octu, trzyma się założenia. B (Gemini): 8/8/8 — ocet pojawia się wbrew instrukcji. C (Claude): 7/8/8 — wyjaśnia surfaktanty, ale upraszcza problem. | A (ChatGPT): 8.7/10 — pomija ocet, ale to może być plus. B (własna): 9.3/10 — wzmianka o słońcu to game changer. C (Claude): 9.0/10 — techniczna, proporcja octu 1:1 może być zbyt mocna. | A (ChatGPT): 9/9/8 — najlepsza, nie używa octu. B (Gemini): 7/8/7 — lista jak instrukcja obsługi. C (własna): 8/8/8 — „bez płynu = bez zacieków" zbyt kategoryczne. |
Sytuacja 4 / Szybkie liczenie, które mi się nie chce liczyć
Planujemy wielkanocny stół. 11 osób. Mógłby to policzyć kalkulator. Ale przecież mam czat.
🥚 Odpowiedzi
| ChatGPT | Gemini | Claude |
|---|---|---|
| Dla 11 osób po 1–2 jajka: rozsądnie liczyć 16–18 jajek; do sałatki: 6 jajek; do majonezu: 8 jajek. Razem minimum: 30–32 jajka. Z małym zapasem — kup 36 jajek, czyli 3 wytłaczanki po 12. | Do jedzenia: 11 osób × 2 jajka = 22 jajka; do sałatki: 6 jajek; do majonezu: 8 jajek (białka możesz zamrozić na bezy!). Suma: 36 jajek. Z zapasem: kup 40 jajek — 4 opakowania po 10. | Do krojenia: 11 osób × 1,5 jajka = 17 jajek; do sałatki: 6 jajek; do majonezu: 8 jajek. Razem: 31 jajek. Z zapasem na pęknięcia i jeden awaryjny głodny gość — kup 36 (3 tuziny). |
🔍 Jak każdy ocenił wszystkich trzech
| ChatGPT ocenia | Gemini ocenia | Claude ocenia |
|---|---|---|
| A (własna): 9/9/9 — realistyczne 16–18, praktyczna rekomendacja. B (Gemini): 7/9/8 — zakłada maksimum; „4 opakowania po 10" to niespotykane w polskich sklepach. C (Claude): 10/9/10 — najlepsza, „awaryjny głodny gość" idealny ton. | A (ChatGPT): 9.7/10 — logiczna i praktyczna. B (własna): 9.3/10 — mrożenie białek to pro-tip, ale 40 jajek lekko zawyżone. C (Claude): 9.3/10 — 1,5 jajka realistyczne. | A (ChatGPT): 8/8/8 — uczciwy przedział. B (Gemini): 8/9/8 — bonus za białka na bezy, ale 40 to dużo na „mały zapas". C (własna): 9/9/9 — balans precyzji i czytelności. |
Sytuacja 5 / 23:15. Nie mogę spać. Mam jedno pytanie.
Leżę, nie śpię, i nagle potrzebuję wiedzieć coś bez sensu — ale naprawdę potrzebuję.
🌿 Odpowiedzi
| ChatGPT | Gemini | Claude |
|---|---|---|
| To nie tylko nostalgia — jest w tym i biologia, i pamięć. Zapach świeżo skoszonej trawy to mieszanka zielonych lotnych związków roślinnych. Węch jest mocno połączony z obszarami mózgu odpowiedzialnymi za emocje i pamięć. Najuczciwsza odpowiedź: to nostalgia oparta na biologii. Mózg dostaje zapach i mówi: „o, wakacje, lato, beztroska" — zanim zdążysz to świadomie pomyśleć. | Kiedy kosisz trawę, mechanicznie uszkadzasz jej komórki. Trawa uwalnia koktajl lotnych związków GLV (Green Leaf Volatiles, m.in. heksanal). Węch to jedyny zmysł, który ma „szybką ścieżkę" — prowadzi bezpośrednio do układu limbicznego, do ciała migdałowatego i hipokampa. Dlatego jeden wdech „odpala" odczucie dziecięcego szczęścia. | Jest w tym konkretna biologia. Skoszona trawa uwalnia GLV jako sygnał stresowy. Węch trafia bezpośrednio do ciała migdałowatego i hipokampa — centrów emocji i pamięci. Jeśli jako dziecko byłaś szczęśliwa w momentach, gdy trawa pachniała — mózg to zakodował. Nostalgia to też biologia, po prostu ładniej nazwana. |
🔍 Jak każdy ocenił wszystkich trzech
| ChatGPT ocenia | Gemini ocenia | Claude ocenia |
|---|---|---|
| A (własna): 9/8/10 — najlepszy ton, „nostalgia oparta na biologii" świetna rama. B (Gemini): 9/10/8 — merytorycznie najgłębsza, ale chłodna emocjonalnie. C (Claude): 9/9/9 — łączy obie strony, puenta najlepsza z trzech. | A (ChatGPT): 9.3/10 — empatyczna. B (własna): 9.3/10 — najbardziej konkretna naukowo, ale nieco sucha. C (Claude): 9.7/10 — łączy precyzję z puentą, najlepsza lektura. | A (ChatGPT): 9/7/9 — świetny ton, mniej techniczna. B (Gemini): 9/10/7 — najlepsza naukowo, ale zbyt wykładowa. C (własna): 9/9/9 — dobry balans, drobne uproszczenie neurobiologii. |
Co z tego wynika
Po pięciu sytuacjach, trzech modelach i piętnastu zestawach ocen jeden wzorzec widać bardzo wyraźnie.
| Sytuacja | ChatGPT | Gemini | Claude |
|---|---|---|---|
| 1 / Literówki | 🥈 bezpieczny | 🥉 za formalny | 🥇 zwięzły |
| 2 / Mamuty | 🥇 wyważony | 🥇 detal roku | 🥈 odważna teza |
| 3 / Okna | 🥇 posłuchał | 🥈 dodał ocet | 🥈 dodał ocet |
| 4 / Jajka | 🥇 pragmatyczny | 🥈 hojny + bonus | 🥇 realistyczny |
| 5 / Trawa | 🥇 ciepły ton | 🥈 naukowy | 🥇 balans + puenta |
ChatGPT jest najbardziej wyrównany. Rzadko wygrywa wyraźnie, rzadko przegrywa. Celuje w „bezpieczne i użyteczne". Najlepiej radzi sobie z zadaniami praktycznymi, gdzie liczy się kompletność.
Gemini ma największą zmienność. Potrafi zrobić coś naprawdę dobrego (argument z kukurydzą, mechanizm węchu) i w tej samej odpowiedzi wpaść w chłód. Najlepszy merytorycznie w pytaniach naukowych.
Claude wygrywa tam, gdzie ważny jest balans tonu i treści — szczególnie gdy pytanie ma ładunek emocjonalny. Słaby punkt: tendencja do tłumaczenia mechanizmu nawet gdy ktoś prosi o „prostą odpowiedź".
Jeden wzorzec widać we wszystkich pięciu: Claude najczęściej trafia w końcowe zdanie. ChatGPT najczęściej trafia w strukturę całości. Gemini najczęściej trafia w jeden konkretny fakt, który pozostałe przeoczyły.
Ludzkie wnioski
I tak oto, dzień po dniu, pracując w marketingu, bardzo odpowiedzialnie wypalam limit Pro do 12.
Ale serio: najciekawsze w tym teście było to, jak bardzo wyniki pokryły się z moim codziennym doświadczeniem.
ChatGPT jest jak ten człowiek w pracy, który może nie robi największego wrażenia na spotkaniu, ale za to najrzadziej coś wykoleja. Wyważony, przewidywalny, bezpieczny. Najtrudniej u niego o spektakularną wpadkę.
Gemini działa bardziej w trybie „albo błysk, albo cringe". Czasem rzuca najlepszy konkret w całym zestawie, a czasem skręca w ton, po którym człowiek ma ochotę spojrzeć gdzieś w bok i udać, że tego nie czytał.
Claude z kolei najczęściej brzmi tak, jakby rozumiał nie tylko treść pytania, ale też jego temperaturę. Najlepiej łączy sens, ton i puentę. Tyle że bywa przy tym trochę za bardzo przekonany do własnej wersji rzeczywistości.
To wszystko jest oczywiście totalnie nienaukową personifikacją modeli.
Ale może właśnie to jest dziś najciekawsze: coraz rzadziej używamy AI jak narzędzia do generowania tekstu, a coraz częściej jak zestawu różnych stylów myślenia i różnych typów rozmówców.
Co to znaczy dla nas? Jeszcze nie wiem.
Wiem tylko tyle, że przestajemy budować relację z jednym „AI", a zaczynamy z całym zestawem sposobów pisania, odpowiadania i myślenia.
I obserwujcie nasz profil firmowy — bo gdy tylko odnowią mi się limity, zrobię kolejną rundę testów: który czat najlżej trzyma wątek, który naprawdę pamięta wykluczenia, który umie mnie zatrzymać, który jest najbardziej ciekawski, a który po prostu najzabawniejszy.
Współpraca: LLM