Ketika ChatGPT dan kecerdasan buatan generatif lainnya dapat menghasilkan artikel ilmiah yang terlihat nyata — terutama bagi seseorang di luar bidang penelitian tersebut — apa cara terbaik untuk mengetahui mana yang palsu?
Ahmed Abdeen Hamed, seorang peneliti tamu di Binghamton University, State University of New York, telah menciptakan algoritma pembelajaran mesin yang disebutnya xFakeSci yang dapat mendeteksi hingga 94% makalah palsu — hampir dua kali lebih berhasil dibandingkan teknik penambangan data yang lebih umum.
“Penelitian utama saya adalah informatika biomedis, tetapi karena saya bekerja dengan publikasi medis, uji klinis, sumber daya daring, dan menambang media sosial, saya selalu khawatir tentang keaslian pengetahuan yang disebarkan seseorang,” kata Hamed, yang merupakan bagian dari Laboratorium Sistem Adaptif Kompleks dan Kecerdasan Komputasional milik Profesor Ilmu Sistem George J. Klir Luis M. Rocha. “Artikel-artikel biomedis khususnya terpukul keras selama pandemi global karena beberapa orang mempublikasikan penelitian palsu.”
Dalam sebuah makalah baru yang diterbitkan dalam jurnal Laporan IlmiahHamed dan kolaborator Xindong Wu, seorang profesor di Universitas Teknologi Hefei di Tiongkok, membuat 50 artikel palsu untuk masing-masing dari tiga topik medis populer — Alzheimer, kanker, dan depresi — dan membandingkannya dengan jumlah artikel nyata yang sama tentang topik yang sama.
Hamed mengatakan ketika dia meminta ChatGPT untuk makalah yang dihasilkan AI, “Saya mencoba menggunakan kata kunci yang sama persis dengan yang saya gunakan untuk mengekstrak literatur dari [National Institutes of Health’s] Basis data PubMed, jadi kita akan memiliki dasar perbandingan yang sama. Intuisi saya adalah bahwa pasti ada pola yang ditunjukkan di dunia palsu dibandingkan dengan dunia nyata, tetapi saya tidak tahu apa pola ini.”
Setelah beberapa kali bereksperimen, ia memprogram xFakeSci untuk menganalisis dua fitur utama tentang cara penulisan makalah. Salah satunya adalah jumlah bigram, yaitu dua kata yang sering muncul bersamaan seperti “perubahan iklim,” “uji klinis,” atau “literatur biomedis.” Yang kedua adalah bagaimana bigram tersebut dihubungkan dengan kata dan konsep lain dalam teks.
“Hal pertama yang mencolok adalah jumlah bigram sangat sedikit di dunia palsu, tetapi di dunia nyata, bigram jauh lebih banyak,” kata Hamed. “Juga, di dunia palsu, meskipun jumlah bigram sangat sedikit, bigram sangat terhubung dengan hal-hal lainnya.”
Hamed dan Wu berteori bahwa gaya penulisannya berbeda karena peneliti manusia tidak memiliki tujuan yang sama dengan AI yang diminta untuk menghasilkan karya tentang topik tertentu.
“Karena ChatGPT masih terbatas dalam pengetahuannya, ia mencoba meyakinkan Anda dengan menggunakan kata-kata yang paling penting,” kata Hamed. “Bukan tugas seorang ilmuwan untuk membuat argumen yang meyakinkan kepada Anda. Sebuah makalah penelitian yang sebenarnya melaporkan secara jujur tentang apa yang terjadi selama sebuah eksperimen dan metode yang digunakan. ChatGPT berfokus pada kedalaman pada satu titik, sementara sains yang sebenarnya berfokus pada keluasan.”
Untuk lebih mengembangkan xFakeSci, Hamed berencana untuk memperluas jangkauan topik guna melihat apakah pola kata yang menunjukkan itu berlaku untuk bidang penelitian lain, tidak hanya di bidang kedokteran, tetapi juga di bidang teknik, topik ilmiah lain, dan humaniora. Ia juga meramalkan AI akan semakin canggih, sehingga menentukan apa yang nyata dan tidak akan semakin sulit.
“Kita akan selalu mengejar ketertinggalan jika kita tidak merancang sesuatu yang komprehensif,” katanya. “Kita memiliki banyak pekerjaan yang harus dilakukan untuk mencari pola umum atau algoritma universal yang tidak bergantung pada versi AI generatif mana yang digunakan.”
Karena meskipun algoritme mereka menangkap 94% makalah yang dibuat AI, imbuhnya, itu berarti enam dari 100 makalah palsu masih lolos: “Kita perlu rendah hati tentang apa yang telah kita capai. Kita telah melakukan sesuatu yang sangat penting dengan meningkatkan kesadaran.”