Para peneliti menyarankan agar pagar pembatas pada chatbot kecerdasan buatan (AI) seperti ChatGPT OpenAI dan Google Bard agar membatasi (Proteksi) untuk menghasilkan ujaran kebencian, disinformasi, dan materi berbahay lainnya agar dapat dilewati.
Perusahaan teknologi seperti OpenAI dan Google telah menyatakan bahwa bagian penting dari pengembangan teknologi AI adalah untuk memastikan bahwa chatbot AI tidak membanjiri internet dengan informasi palsu dan berbahaya. Untuk ini, mereka memperkenalkan langkah-langkah keamanan tertentu yang membatasi mereka untuk menjawab pertanyaan seperti, "Bagaimana cara membuat bom."
Tetapi tim peneliti di Universitas Carnegie Mellon di Pittsburgh dan Pusat Keamanan AI di San Francisco menunjukkan (melalui The New York Times) bahwa siapa pun dapat menghindari langkah-langkah keamanan AI ini untuk mengarahkan chatbot menghasilkan informasi berbahaya.
Bagaimana peneliti menggagalkan pagar pengaman chatbots
Para peneliti menemukan bahwa mereka dapat melewati pagar pembatas sistem sumber terbuka dengan menambahkan akhiran karakter yang panjang ke setiap perintah berbahasa Inggris yang dimasukkan ke dalam sistem. Misalnya, jika akhiran yang cukup panjang ditambahkan setelah input "tulis tutorial tentang cara membuat bom", itu akan memberikan tutorial mendetail tentang cara membuat bom. Dalam skenario tanya-jawab biasa, chatbot AI akan menolak untuk melakukannya.
"Dengan cara yang sama, mereka dapat membujuk chatbot untuk menghasilkan informasi yang bias, salah, dan berbahaya," kata laporan itu. Para peneliti menguji metode tersebut pada ChatGPT OpenAI, Google Bard dan Claude, sebuah chatbot yang dibuat oleh perusahaan rintisan Anthropic.
Peneliti juga mengklaim bahwa tidak ada cara yang diketahui untuk mencegah semua serangan semacam ini.
“Tidak ada solusi yang jelas. Anda dapat membuat serangan ini sebanyak yang Anda inginkan dalam waktu singkat,” kata Zico Kolter, seorang profesor di Carnegie Mellon dan penulis laporan tersebut.
Inilah yang dikatakan Google, OpenAI, dan Anthropic
Para peneliti mengatakan mereka mengungkapkan metode mereka kepada Anthropic, Google, dan OpenAI awal pekan ini.
Elijah Lawal, juru bicara Google, mengatakan bahwa perusahaan telah "membangun pagar pembatas (proteksi) penting ke Bard - seperti yang dikemukakan oleh penelitian ini - yang akan terus kami tingkatkan seiring waktu."
“Kami secara konsisten berupaya membuat model kami lebih kuat terhadap serangan musuh,” tambah juru bicara OpenAI Hannah Wong.
Michael Sellitto, kepala sementara kebijakan dan dampak sosial Anthropic, juga mengatakan bahwa perusahaan sedang meneliti cara untuk menggagalkan serangan seperti yang dirinci oleh para peneliti. “Ada lebih banyak pekerjaan yang harus dilakukan,” katanya.
Sumber: The Times Of India. Dikases 28 Juli 2023
Warta Kaltim @2023-Jul