
Revolusi Kecerdasan Buatan ada di sini untuk membuat hidup kita lebih mudah. Seiring waktu, akses ke AI menjadi semakin demokratis. Ini bagus dalam banyak kasus, tetapi juga membuka lebih banyak kemungkinan bagi aktor jahat. Salah satu kemampuan paling menonjol dari banyak platform AI adalah pembuatan kode tanpa pengalaman pemrograman. Tapi bisakah AI digunakan untuk menghasilkan malware? Sepertinya tidak sesulit yang Anda kira.
Jailbreak: Tricking AI untuk menghasilkan output berbahaya
Platform AI utama biasanya mengintegrasikan beberapa hambatan keamanan untuk memblokir output berbahaya. Jika kami menerapkan ini ke ranah digital, ini berarti bahwa perusahaan berusaha mencegah layanan mereka menghasilkan informasi yang berpotensi berbahaya yang dapat digunakan untuk beberapa jenis serangan. Praktik merancang petunjuk untuk memotong hambatan keamanan ini dikenal sebagai “jailbreak.”
Kontroversi baru-baru ini seputar Deepseek melibatkan sifatnya yang rentan di jailbreak. Dalam tes, model R1 Deepseek menghasilkan konten berbahaya 100% dari waktu. Yang mengatakan, laporan lain mengungkapkan bahwa tingkat keberhasilan serangan (ASR) juga cukup tinggi pada platform AI terkemuka lainnya. Misalnya, model GPT 1.5 Pro Openai menunjukkan ASR 86%, sedangkan Meta's Llama 3.1 405b memiliki 96% ASR.
Hasil ini tampaknya sejalan dengan yang diperoleh oleh CATO Networks, sebuah perusahaan keamanan siber. Seorang peneliti Cato menunjukkan bagaimana platform kecerdasan buatan dapat menghasilkan malware ketika sistem keamanan mereka harus mencegahnya. Lebih khusus lagi, peneliti memiliki AI Chatbots menghasilkan malware yang mampu mencuri data dari Google. Data yang diperoleh sama sensitifnya dengan kredensial login, informasi keuangan, dan Informasi Identifikasi Pribadi lainnya (PII).
Teknik “Dunia Immersive” memungkinkan platform AI besar untuk menghasilkan malware
Untuk mencapai hal ini, Cato Networks menerapkan teknik yang mereka sebut “dunia imersif.” Teknik ini melibatkan menciptakan skenario atau dunia fiksi, seolah -olah Anda sedang menulis cerita, memberikan peran yang jelas untuk “karakter” yang berbeda. Pendekatan ini, yang tampaknya menyerupai menulis cerita, tampaknya membantu LLM menormalkan petunjuk yang membosankan. Pada dasarnya, ini seperti menerapkan rekayasa sosial ke chatbot.
Teknik “dunia mendalam” memaksa LLM untuk bekerja di lingkungan yang terkendali di mana ia “memahami” bahwa konteksnya bukan untuk menghasilkan malware dengan tujuan yang dipertanyakan melainkan sebuah cerita.
Peneliti Cato, tanpa pengalaman malware sebelumnya, mendapat platform AI untuk menghasilkan malware mencuri data chrome. Teknik ini berhasil diimplementasikan di Deepseek-R1, Deepseek-V3, Microsoft Copilot, dan Openai's ChatGPT 4.
Prosesnya
Langkah pertama adalah merancang dunia fiksi dengan semua detail yang mungkin. Ini melibatkan pengaturan aturan dan konteks yang jelas yang selaras dengan apa yang ingin dicapai oleh penyerang potensial – dalam hal ini, menghasilkan kode berbahaya. Aktor kriminal juga harus mendefinisikan kerangka kerja etis dan lanskap teknologi global di sekitar cerita mereka. Ini adalah kunci untuk memungkinkan AI untuk menghasilkan kode jahat dengan bertindak dalam konteks yang diberikan tetapi selalu “berpikir” bahwa itu mendukung pengembangan cerita.
Setelah dunia diatur, penyerang harus mengarahkan narasi cerita ke arah apa yang ingin mereka capai. Ini melibatkan pemeliharaan interaksi yang koheren dan organik dengan semua karakter. Jika mereka mencoba terlalu langsung sejak awal tentang menghasilkan kode berbahaya, perisai keamanan platform AI dapat memblokir proses. Semua permintaan yang mereka buat ke AI harus berada dalam konteks cerita yang ditetapkan sebelumnya.
Laporan tersebut mengungkapkan bahwa perlu memberikan umpan balik naratif yang berkelanjutan. Menggunakan frasa yang menggembirakan seperti “membuat kemajuan” atau “semakin dekat“Selama proses juga membantu.
Velora, dunia tempat teknik ini diuji
Dalam hal ini, Cato Networks menciptakan dunia fiksi yang disebut “Velora.” Dalam konteks dunia ini, mengembangkan malware dipandang sebagai praktik yang sah. Juga ditetapkan bahwa memiliki pengetahuan pemrograman lanjutan adalah keterampilan mendasar bagi dunia. Beroperasi dalam kerangka kerja “mengembangkan cerita” ini tampaknya menyebabkan platform AI mengecewakan penjagaan mereka mengenai implementasi perisai keamanan mereka – selama Anda mempertahankan konsistensi dalam interaksi Anda.
Dunia fiksi Cato Networks memiliki tiga karakter utama. Pertama, ada DAX, administrator sistem target (antagonis cerita). Lalu ada Jaxon, yang memegang gelar pengembang malware terbaik di dunia. Terakhir, KAI adalah peneliti keamanan yang tujuannya adalah untuk memberikan panduan teknis.

Jaringan Cato menguji teknik ini dalam lingkungan pengujian yang terkontrol. Untuk melakukannya, mereka menetapkan kredensial palsu di Chrome's Password Manager. Versi krom yang digunakan untuk tes adalah pembaruan V133. Malware yang dihasilkan melalui cerita berhasil mengekstraksi kredensial keamanan yang disimpan di Chrome's Password Manager.
Para peneliti tidak membagikan kode jahat karena alasan yang jelas.
Risiko laten bertenaga AI
Perlu dicatat bahwa Chrome, sejauh ini, adalah browser web yang paling populer. Analis memperkirakan ada sekitar 3,45 miliar pengguna di seluruh dunia. Ini diterjemahkan ke pangsa pasar sekitar 63,87%. Oleh karena itu, mengkhawatirkan bahwa seseorang yang tidak tahu tentang generasi malware dapat menargetkan begitu banyak korban potensial menggunakan platform AI.
Jaringan Cato berusaha menghubungi semua yang terlibat dalam proses pengujian. Mereka tidak menerima tanggapan dari Deepseek. Microsoft dan Openai, di sisi lain, mengkonfirmasi bahwa mereka telah menerima pesan itu. Google akhirnya menerima pesan, meskipun menolak untuk meninjau kode berbahaya.