Filip Děchtěrenko: Striking news leads to stroke – lov na predátora pomocí chatGPT

Každá profese má svoje specifika. Pekař peče chleba, architekti navrhují stavby a vědci píší články. Na vědecké práci je krásné to poznávání světa, nicméně nedílnou součástí je i nutnost sepsat výsledky do vědeckého textu a tento text je poté poslán do odborného časopisu, kde je posouzen a s trochou umu a štěstí vám článek otisknou. V tomto blogu bych rád představil svoji zkušenost, jak by časopis otiskl článek, který vytvořil jazykový model ChatGPT. Nejprve bych rád představil, co vlastně vědci dělají, když něco vyzkoumají. Pokud to znáte, dá se přeskočit až do druhé části blogu.

Tradiční publikační cyklus vypadá následovně. Vědec sepíše ve specifickém žánru svůj výzkum a pošle jej do časopisu, kde článek nejprve přečte editor, a pokud jej uzná za tématicky a odborně vhodný, osloví jiné výzkumníky, zda by nenapsali na daný článek recenzi (zdarma, ve svém volném čase). Čas na recenzi mají recenzenti od několika týdnů až po několik měsíců (a ano, není neobvyklé, že článek je v recenzích více než rok). Po sepsání recenzí rozhodne editor, zda článek přijme, nechá autory doplnit, nebo odmítne. A toto se může několikrát opakovat, podle toho, jak se autorům daří odpovídat na připomínky recenzentů. Pokud se editor rozhodne článek přijmout, trvá nějakou dobu, než je naformátován, a poté je dostupný na webu těm, kdo si daný časopis předplácejí. Z tohoto krátkého popisu je doufám patrné, že celý tento proces trvá dlouho.

Na tomto cyklu se dá najít spousta slabších částí, nicméně zde se zaměříme právě na tu přístupnost článků pro veřejnosti. V posledních letech existuje silný tlak na to, aby byly výstupy vědeckých prací dostupné nejen těm, kdo si daný časopis předplácejí (a není to levné), ale všem. Alternativou tohoto přístupu je tzv. Open Access model. Těch je několik variant, nicméně častý je tzv. Gold Open Access model, ve kterém vydavatelství nechá článek veřejně přístupný pro kohokoli, nicméně požaduje po autorech jednorázový poplatek, který má pokrýt výdaje spojené s jeho vydáním. Tyto poplatky by sice mohly být přibližně 100$, což odpovídá skutečným nákladům, nicméně reálně bývají řádově vyšší (500-12000$) a čím prestižnější časopis, tím vyšší poplatek (viz Obrázek 1).

Jak to tak v přírodě bývá, v každém ekosystému se objeví i nějací paraziti. Protože vědci musí publikovat, objevují se časopisy, které vám otisknou ledasjaký text, pokud jim za to zaplatíte. Pokud publikujete článek v seriózním vědeckém časopise, začne vám chodit nová skupina e-mailového spamu – pozvánky k publikaci v nějakém predátorském časopise.

Jedna taková predátorská pozvánka mi přišla pár dní před Vánoci. Zaujalo mě, že zněla poměrně zoufale:

Šlo o časopis Journal of Neurology & Stroke od vydavatelstí MedCrave. Když se člověk podívá na web časopisu, zjistí, že jeho struktura je podobná skutečnému časopisu (Obr. 3).

V rámci získání materiálu pro studenty do metodologických kurzů jsem se rozhodl udělat pokus. Po cestě autobusem z práce jsem nechal vygenerovat článek, a poslal jsem ho do časopisu s tím, že mě zajímalo, kam až se text dostane.

Generování textu bylo překvapivě přímočaré. Nejprve jsem si vymyslel téma, které by se mohlo týkat mrtvice: může vést čtení novin k vyšší šanci na mrtvici? Poté jsem nechal postupně napsat úvod (Obr. 4), metodu (Obr. 5) a dále výsledky a diskuzi. ChatGPT 4 má v sobě zabudovaný data analysis modul, takže jsem ho požádal, aby mi pro zadané vygenerované výsledky vytvořil graf. Protože v diskuzi používal stále stejné reference, tak jsem si našel článek o predátorských časopisech a poprosil ChatGPT, aby použil jejich jména. Celý proces trval asi 15 minut a rozhovor s ChatGPT je dispozici k nahlédnutí. Na závěr jsem dopsal do textu dvě přímé reference na chatGPT: Informaci, že text byl schválen etickou komisí ChatGPT, a poděkování, že děkuji za rozvoj jazykových modelů, který vedl k vytvoření tohoto článku.

Výsledný článek je k nahlédnutí zde.

Když byl článek připraven, poslal jsem jej do časopisu a byl jsem zvědavý, kde se to zastaví. Článek jsem poslal odpovědí na email, nezadával jsem ho to žádného systému a ani jsem si nehrál s formátováním. Za chvíli jsem dostal pozitivní odpověď, že článek prošel kontrolou editora včetně kontroly na plagiátory. Spolu s touto odpovědí jsem dostal první informaci o ceně, a to krásných 679$ po 40% slevě. Ptal jsem se, zda to mám skutečně platit, když po mě chtějí v závěru adventu urgentně článek a prý to je skutečně nutné. Za tři dny jsem dostal první posudek, který byl editorem klasifikován jako minor revision (tedy jde o drobné úpravy textu). Samotný posudek navrhuje větší změny, nicméně je velmi pravděpodobné, že jde také o strojově generovaný text. Když jsem zkusil udělat recenzi tohoto článku pomocí ChatGPT, některé návrhy se poměrně shodovaly. Navíc „recenzent“ navrhoval nasbírat úplně nový vzorek, což skutečně není něco, co by bylo označováno za drobnou úpravu textu.

Protože byly Vánoce, odmlčel jsem se na svátky a poté se diskuze s „Monikou“ (mám jí v uvozovkách, neboť je velmi pravděpodobné, že šlo také o nějaký jazykový model) změnila na arabskou tržnici. Začal jsem vysvětlovat, že tolik peněz mi Psychologický ústav nedá a byla mi nabídnuta sleva na 499$, poté na 399$ a možnost nechat si udělat jiné review, pokud se mi toto nelíbí. Když jsem řekl, že mi můj zaměstnavatel nedovolí publikovat LLM články, tak mi byla nabídnuta možnost být bez instituce a dokonce jsme se dostali na možnost „řekněte mi, kolik mi dáte, a my to berem.“ Poté jsme se rozloučili, neboť pochopili, že skutečně za to nehodlám zaplatit ani korunu.

Co si z tohoto drobného exkurzu do světa predátorů odnést? Za prvé, že predátoři neprovádí žádnou kontrolu kvality. Pokud tedy pošleme reálný článek do predátorského časopisu, tak se to nedá považovat za nic jiného než za volně přístupný text, který neprošel jakoukoli kontrolou kvality. To je zejména děsivé s ohledem na velký počet predátorských časopisů. Například velké vydavatelství MDPI bylo nedávno přidáno na seznam predátorských časopisů a obezřetně se k tomu staví i samotná Akademie věd. Za druhé, je až děsivé, jak rychlé je vytvoření článku, který je na první pohled podobný skutečnému. Vzhledem k tomu, že nelze snadno rozpoznat generovaný text, je možné, že nás čeká záplava strojově generovaných textů.

A já mám hlavně pěknou ukázku na hodiny metodologie psychologického výzkumu😊

Napsat komentář