Jak jsem odhalil práci napsanou chatbotem?

Začalo to docela nevině

„Ta práce je nějaká divná. Nemohl by ses na ni podívat?“ zeptal se mě jeden známý, zatímco mi na stůl nenápadně položil výtisk závěrečné práce.

Jako oponent se ji chystal nedoporučit k obhajobě, protože obsahovala celou řadu věcných nepřesností a chyb, ale i přesto chtěl znát názor někoho nestranného.

Moc se omlouvám, že nemohu a hlavně nesmím být konkrétní. Svůj objev jsem učinil teprve včera večer, takže je všechno ještě čerstvé a dost možná o tom ještě student ani neví.

Co to bylo za práci?

Asi mohu prozradit, že se v ní věnoval porovnání dvou míst. To bylo totiž to hlavní, co ho prozradilo. Ale pěkně popořádku.

Ta práce byla divná už od samého začátku

Za svůj život jsem přečetl několik set různých závěrečných prací. Vím tak (moc dobře), jak se studenti v práci obvykle vyjadřují, jaké chyby dělají, jak citují a tak dále.

Tady ta práce byla prostě jiná.

Už na začátku jsem cítil, že to není běžné vyjadřování studenta na této úrovni studia. Vynikající styl psaní se střídal s pasážemi, které jsem nepochopil ani po opakovaném čtení.

Pro boha, vždyť to snad ani nemohl napsat člověk!

Ty fráze, ty obraty… prostě mi to nějak nesedělo.

Není to plagiát?

Kdykoliv začnu mít toto podezření, používám jednoduchou metodu – googlím. Už mockrát se mi takto podařilo odhalit plagiát, přestože jsem neměl k dispozici protokol z antiplagiátorského softwaru.

Tentokrát jsem si ale na tom hodně vylámal zuby.

Nic jsem nemohl najít. Teda kromě toho, že jeden zdroj, na který se autor odkazoval, neexistoval. Prostě jsem ho na tom webu nemohl najít. A to jsem zkoušel, opravdu všechno možné.

Tak jsem pokračoval ve čtení dál.

Napiš mi, proč…?

Někde v polovině práce, když už jsem se přestal zdržovat googlením, jsem narazil na nenápadnou větu, kterou z důvodu zachování anonymity parafrázuji a textově upravím:

Napiš mi, proč je toto místo důležité pro moji práci a proč je vhodné je porovnat s tímto druhým místem?

Můj plazí mozek (amygdala) zbystřil a ucítil pomocí vnitřních receptorů svoji kořist. Přestal jsem číst a významně jsem se na tu větu zaměřil.

První, co mě napadlo…

Hele a nemůže to být nějaká zapomenutá poznámka od vedoucího práce? Vždyť i já píšu studentům během konzultací komentáře, aby věděli, co a jak bych v textu upravil, nebo doplnil.

Takže jsem tu větu četl ještě několikrát, než jsem si všiml, že jsou tam nějaké divné fráze.

Fráze, které by žádný vedoucí nepoužil

První byla – napiš mi. To se obvykle používá, když někdo někoho žádá o to, aby pro něj něco napsal. Jenomže vedoucí by spíše použil něco ve smyslu – doplň, uveď, zamysli se…

(Pokud vás překvapuje tykání, nechte to plavat. Proč by si vedoucí nemohl se studentem tykat. Na příklad během doktorského studia je to celkem běžné.)

Varovný signál pro mě ale bylo spojení pro moji práci. Proč by vedoucí napsal komentář: „Napiš mi pro moji práci?“ Vždyť to přece nedává smysl.

(… nebudu vás už dlouho napínat…)

Takto přece obvykle vypadá komunikace s chatbotem

Po dvou minutách usilovného přemýšlení mi to konečně docvaklo. Autor pravděpodobně zapomněl smazat dotaz, který poslal chatbotovi, aby za něj vymyslel následující pasáž.

A taky že asi jo

Odpověď, která následovala, totiž nedávala vůbec smysl. Vždyť já to snad ani nedokážu parafrázovat, aby se neztratil původní význam. Tak šíleně to znělo!

Dobře, zkusím to, ale už teď vím, že se mi to stejně nepodaří.

Místo je důležité pro porovnání, protože poskytuje důležité informace, které jsou klíčové pro porovnání s druhým místem.

Já to říkal, to prostě nejde parafrázovat. No a v těch šílenostech pokračoval dál. Představte si několik obsáhlých odstavců, po jejichž přečtení jste mohli začít číst od začátku, protože to prostě nemělo žádný smysl.

Nepomohlo tomu ani to, že v té odpovědi použil spojení vědecká práce. Ale kdoví, třeba to na mě bylo až příííliš vědecké.

Proč ale opakoval to, co už před chvílí napsal?

Připusťme, že se jednalo o nadaného studenta, který se jen vyjadřoval hodně abstraktně. Taky mě to napadlo. Vzpomněl jsem si totiž na moje věty v bakalářce… a dodnes obdivuji každého, kdo je dokázal přelouskat bez viditelné újmy.

Proč ale tento student opakoval zdůvodnění výběru obou míst, když to samé už udělal o několik stran dříve; v metodice. Navíc v textu, který nazval vznešeně Charakteristika (místa).

Dobře, někdy studenti používají tuhle nekalou praktiku, aby přifoukli rozsah práce. Dokonce jsem tuhle „radu“ už četl i někde na internetu, i když je to hloupost, která čtenáře unudí k smrti. (Vyhněte se ji, prosím.)

Data jsou dostupná jen do roku 2021

Až budete příště komunikovat s chatbotem, zeptejte se ho, s jak starými daty pracuje. Dozvíte se, že používá data jen do roku 2021. Cokoliv novějšího nezná.

Nevěříte mi?

Zkuste se ho zeptat na to, kdo je prezidentem České republiky. Dozvíte se, že je to Miloš Zeman. O letošních volbách chatbot zkrátka ještě neví.

Když se proto v práci objevila poznámka o tom, že jsou data dostupná jen do roku 2021, přestože po chvíli googlení najdete i rok 2022, byl to jen další střípek do mozaiky mého podezření.

A byla ta práce opravdu napsaná chatbotem?

Přestože práce vykazovala základní znaky textu psaného umělou inteligencí, nedokážu na tuhle otázku jednoznačně odpovědět.

Jaké jsou ty znaky?

Chatbot si vymýšlí neexistující citace.
Text často obsahuje nepřesnosti a chyby např. v terminologii a jejím výkladu.
Na tom, jak ty věty znějí uměle, poznáte, že to snad ani nemohl napsat člověk. A taky že ne.
Jeho znalosti jsou omezeny časem. Aktuálně rokem 2021.
Text obsahuje spojení „Napiš mi,…“ 😉

Vnitřně jsem přesvědčen, že student použil chatbota a necitoval ho, ale ctím presumpci neviny. Samotného by mě zajímalo, jak dopadne jeho obhajoba.

Jak jsem postupoval dále?

Přestože mi pro finální rozhodnutí chyběly sofistikovanější metody, doporučil jsem svému známému, aby toto své podezření napsal do posudku.

Navrhl jsem mu, aby v něm zmínil konkrétní pasáže, které budí (oprávněné) rozpaky, a nechal komisi, aby si tato podezření ověřila během obhajoby. Jako externí oponent stejně více možností nemá.

Varování: Pokud si nejste na min. 101 % jistí, že jde o plagiát nebo ghostwriting, vyhněte se absolutním soudům. Volil bych opatrnější vyjádření ve stylu, „práce naplňuje znaky plagiátu“.

Doporučení na závěr

Je pravděpodobné, že budou studenti čím dál častěji využívat při psaní čehokoliv umělou inteligenci. Ve své podstatě to není špatně, jen si musí všechno několikrát ověřit, než to přijmou za své, a musí citovat zdroj.

Jinak tady platí totéž, co při eliminaci plagiátů. Jedinou možností je průběžná spolupráce mezi vedoucím a studentem. Když totiž budete vědět, jak práce vznikala a z jakých zdrojů autor čerpal, kvalita zpracování vás nepřekvapí.

Já vím, někdy nekomunikuje student, jindy vedoucí… ale to už se dostáváme do trochu jiné polemiky.

Tak ať vám jde psaní od klávesnice! S chatbotem i bez něj.

Pavel Semerád

4.6/5 - (25 hodnocení)

Komentáře: 6

Any napsal:

21. 4. 2023 (17:42)

jen doplním k předchozímu, použijte pro překlad překladač – budete-li překládat jako člověk, vtisknete tomu lidskou podobu

Odpovědět
Milan Čížek napsal:

21. 4. 2023 (10:26)

To s těmi daty do roku 2021 platilo donedávna, dnes už to s takovou jistotou nelze tvrdit. OpenAI už uvolnila API pro moduly 3. stran, takže ty se klidně mohou dotazovat směrem ven a pracovat s aktuálními daty na internetu (pokud někdo takový plugin napíše), něco takového má už snad Bing od Microsoftu, integrovaný třeba ve Skypu… Rozhodně se Vám práce do budoucna dost zkomplikuje. Pokud někoho zajímá vývoj ChatGPT podrobněji, doporučuji v zápatí kliknout na „ChatGPT Mar 23 Version“, kde je pak podrobnější changelog změn, dá se z toho ledacos poznat. Jinak i GPT (3.5) o sobě tvrdí, že je občas dotrénována o novější data, zde bych spíš předpokládal na základě zpětné vazby od uživatelů (v chatu je proto hodnocení odpovědí), nicméně si spíš myslím, že to tak není a ani si neumím představit, jak by se to na sítí s transformer vrstvami řešilo. 🙂 Ale třeba to možné je. Spíš bych to ale interpretoval tak, že se ta data uplatní až ve vyšší verzi GPT-4.

Odpovědět
1. Pavel Semerád napsal:
  
  21. 4. 2023 (11:51)
  
  Děkuji Vám, Milane, za odborné doplnění. Přiznávám, že samotné fungování ChatGPT je stále nad mé chápání a dost možná je nepochopím nikdy. I proto jsem si svoji pravdu upravil podle rozhovoru s chatbotem, kde mi tvrdil, že jeho poslední aktualizace znalostí proběhla v září 2021. Máte pravdu, že to nebylo úplně správné tvrzení.
  
  Souhlasím s Vámi také v tom, že se ta situace hodně zkomplikuje. V tomto případě jsem měl obrovské štěstí, že se tam ten vyhledávací dotaz objevil. Možná i podle tohoto článku si to spousta autorů pohlídá a pak… pak už to odhalit asi moc nepůjde. Leda že by (zase jiní) informatici vymysleli na odhalování něco sofistikovanějšího.
  
  Odpovědět
  1. Milan Čížek napsal:
    
    21. 4. 2023 (14:55)
    
    Pravda. Nikdo vlastně nevíme, jak to s trénováním je, tyto informace nemusí být úplně pravdivé, samo OpenAI toho moc neprozrazuje. A co tvrdí chatbot, to je často dost zavádějící.
    
    Mě ještě napadá. Když znáte ten dotaz, který se v práci „vyskytl“. Zkuste ho schválně do GPT zopakovat. 🙂 A celkem by mě zajímalo, jestli chatbot odpoví v podobném duchu, jako je ten následující text v práci. Jako jestli tam bude nějaká patrná analogie. Teoreticky by tam nějaká podobnost, dle mého názoru, být měla.
    
    Odpovědět
    1. Pavel Semerád napsal:
      
      21. 4. 2023 (15:09)
      
      To víte, že jsem to zkoušel. 🙂 Bohužel mi to ale vypsalo něco jiného. Pravděpodobně proto, že si student již s chatbotem povídal více do hloubky a chatbot už z předchozích dotazů jeho práci znal. 🙁 To slovo „znal“ je ale hodně děsivé.
      
      Odpovědět
      1. Any napsal:
        
        21. 4. 2023 (17:40)
        
        docela funguje také přeložit český text přes překladač do anglického jazyka a použít webovou aplikaci gptzero.me – pak je odhalení s poměrně dobrou úspěšností – český text aplikace neodhalí, přeložený do jazyka anglického už ale ano – text psaný chatbotem umí překladač přeložit velmi slušně, protože neobsahuje složité obraty, metafory, obvykle ani barvitá či malebná přídavná jména. Text psaný AI je nelidsky homogenní 🙂