Şirketiniz, OpenAI’nin ChatGPT’sine yada Google’ın Bard’ına benzer bir suni zeka söyleşi robotu yayınlamayı planlıyor mu? Bunu yapmak, genel halka AI modelinizle etkileşime girmesi için özgür biçimli bir metin kutusu vermek anlamına gelir.
Kulağa o denli da fena gelmiyor, değil mi? İşin püf noktası şu: “ChatGPT ve Midjourney işimin yarısını şu şekilde yapıyor” makalesini okuyan her bir kullanıcınız için, “Suni zekalı söyleşi robotlarına bir şeyler yaptırmanın yolu burada” başlıklı bir yazı okumuş olan minimum bir şahıs olabilir. hain.” Toplumsal medyada ödül olarak ekran görüntüleri yayınlıyorlar; sömürdükleri açıkları kapatmak için çırpınır durursunuz.
Daha süratli öğrenin. Daha derin kaz. Daha uzağa bakın.
Şirketinizin yeni suni zeka risk yönetimi kabusuna hoş geldiniz.
Ee ne yapıyorsun? Hafifletmek için bazı fikirler paylaşacağım. Fakat ilkin, problemi daha derine inelim.
Eski Problemler Tekrardan Yeni
Metin kutusu ve gönder düğmesi kombinasyonu neredeyse her internet sayfasında bulunur. Web formu ortalama otuz yıl ilkin oluşturulduğundan beri bu böyleydi. Peki, insanların söyleşi botunuzla etkileşime geçebilmesi için bir metin kutusu koymanın nesi bu kadar ürkütücü?
1990’ların bu web formları problemi oldukça iyi gösteriyor. Bir şahıs “gönder”i tıkladığında, internet sayfası bu biçim verilerini işlemek için bir arka uç kodu vesilesiyle iletir – böylece bir e-posta gönderir, bir sipariş oluşturur yada bir veritabanında bir kayıt depolar. Gene de bu kod oldukça güvenilirdi. Fena niyetli erkek oyuncular, duyarlı veritabanı kayıtlarını ifşa etmek yada detayları silmek şeklinde istenmeyen bir şeyi yapması için kandırmak suretiyle zekice girdiler oluşturabileceklerine karar verdiler. (En popüler saldırılar, siteler arası betik çalıştırma ve SQL enjeksiyonuydu, ikincisi en iyi “Little Bobby Tables” öyküsünde açıklanıyor.)
Bir söyleşi robotu ile web formu, son kullanıcının özgür biçimli metin girişini (bir “istem” yada harekete geçme talebi) üretken bir suni zeka modeline iletir. Bu model, istemi yorumlayarak ve peşinden eğitim verilerinde ortaya çıkardığı kalıpları tekrardan oynatarak (olasılığa dayalı bir varyasyon) cevap görüntülerini yada metnini oluşturur.
Bu üç soruna neden olur:
- Varsayılan olarak, bu temel model herhangi bir isteme cevap verecektir. Bu, söyleşi robotunuzun, eğitim veri kümesindeki tüm bilgilere erişimi olan saf bir şahıs olduğu anlamına gelir. Oldukça sulu bir hedef, hakkaten. Fena aktörlerin sırları korumuş olan insanları kandırmak için toplumsal mühendisliği kullanımı şeklinde, akıllı yönlendirmeler de chatbot’unuz için bir tür toplumsal mühendisliktir. Bu tür süratli enjeksiyon fena şeyler söylemesini sağlayabilir. Yada napalm için bir tanım gösterin. Yada duyarlı ayrıntıları ifşa edin. O halde botun girişlerini filtrelemek size kalmış.
- Potansiyel olarak güvenli olmayan chatbot girdileri aralığı, “herhangi bir insan dili akışı” anlamına gelir. Aynen bu şekilde oluyor, bu da açıklıyor Tümü ihtimaller içinde chatbot girişleri. Bir SQL enjeksiyon saldırısıyla, veritabanının onlara hususi işlem göstermemesi için belirli karakterlerden “kaçabilirsiniz”. Şu anda bir chatbot’un girişini güvenli hale getirmenin eşdeğer, kolay bir yolu yok. (Toplumsal medya platformları için içerik denetimi meydana getiren her insana mesele: belirli terimleri filtrelemek sizi yalnızca bir yere kadar götürür ve ek olarak birçok yanlış pozitife neden olur.)
- Model deterministik değildir. Bir suni zeka söyleşi robotunun her çağrılması, eğitim verileri vesilesiyle olasılıksal bir yolculuktur. Bir informasyon istemi her kullanıldığında değişik yanıtlar verebilir. Değişik anlatılan aynı düşünce, robotu tamamen değişik bir yola sokabilir. Doğru istem, söyleşi robotunun orada bulunduğunu bile bilmediğiniz detayları ortaya çıkarmasını sağlayabilir. Ve bu olduğunda, bu sonuca iyi mi ulaştığını hakkaten açıklayamazsınız.
Öyleyse niçin bu sorunları öteki suni zeka modellerinde görmedik? Şundan dolayı bunların bir çok, yalnızca güvenilir dahili sistemlerle yazışma kuracak şekilde konuşlandırılmıştır. Yada girdileri, şekillerini yapılandıran ve sınırlayan dolaylı katmanlardan geçer. Mesela, sayısal girdileri kabul eden modeller, yalnızca eğitim verilerinde gözlemlenen kıymet aralığına müsaade eden bir filtrenin arkasına oturabilir.
Ne yapabilirsin?
Bir suni zeka söyleşi robotu yayınlama hayalinizden vazgeçmeden ilkin şunları ihmal etmeyin: risk yoksa ödül yok.
Risk yönetiminin temel fikri, her şeye “hayır” diyerek kazanamayacağınızdır. Önünüzdeki potansiyel sorunları anlayarak kazanırsınız, peşinden onlardan iyi mi kurtulacağınızı anlayın. Bu yaklaşım, sizi potansiyel pozitif kazançlara açık bırakırken, aşağı yönlü yitik şansınızı azaltır.
Şirketinizin bir suni zeka söyleşi robotu dağıtmasının risklerini aslına bakarsan tanımlamıştım. Ödüller, ürünleriniz ve hizmetlerinizdeki iyileştirmeleri yada kolaylaştırılmış satın alan hizmetlerini yada benzerlerini ihtiva eder. Hatta bir tanıtım desteği bile alabilirsiniz, şundan dolayı bugünlerde neredeyse her yazı şirketlerin söyleşi robotlarını iyi mi kullandıkları hakkındadır.
Öyleyse, bu riski yönetmenin ve sizi bir ödül için konumlandırmanın bazı yollarından bahsedelim. (Ya da en azından kayıplarınızı sınırlayacak şekilde konumlandırın.)
Kelimeyi gösterim: Yapmak isteyeceğiniz ilk şey, şirketteki insanların ne yaptığınızı bilmesini sağlamaktır. Planlarınızı gizli saklı tutmak cazip gelebilir -kimse kendi hususi projesinde yavaşlamasının yada rotasını değiştirmesinin söylenmesinden hoşlanmaz- sadece şirketinizde beladan kurtulmanıza destek olabilecek birkaç şahıs vardır. Ve eğer chatbot’u piyasaya sürülmeden oldukça ilkin öğrenirlerse, sizin için oldukça daha fazlasını yapabilirler.
Şirketinizin Baş Informasyon Güvenliği Sorumlusu (CISO) ve Baş Risk Sorumlusu’nun kesinlikle fikirleri olacaktır. Hukuk ekibiniz de o şekilde. Ve hatta geçmişte dalgalı denizlerde yelken açmışlarsa, Mali İşler Direktörünüz, Halkla İlişkiler ekibiniz ve İK başkanınız bile olabilir.
Net bir hizmet şartları (TOS) ve kabul edilebilir kullanım politikası (AUP) tanımlayın: İnsanların o metin kutusuna yazdığı istemlerle ne yaparsınız? Bu tarz şeyleri çözümleme için kolluk kuvvetlerine yada öteki taraflara sağlıyor musunuz yada güncellemeler için modelinize geri besliyor musunuz? Çıktıların kalitesi ve insanların bu tarz şeyleri iyi mi kullandığı hakkında hangi garantileri veriyorsunuz yada vermiyorsunuz? Chatbot’unuzun TOS’unu öne ve ortaya koymak, insanların ne bekleyeceklerini bilmelerini sağlar ilkin duyarlı kişisel detayları ve hatta gizli saklı şirket bilgilerini girerler. Benzer şekilde, bir AUP ne tür istemlere izin verildiğini açıklayacaktır.
(Dikkat edin, bir şeyler ters giderse bu belgeler sizi mahkemede kurtaracaktır. İnsanlar sizi mühim ayrıntıları ince yazılara gömmekle suçlayacakları için kamuoyu mahkemesinde de geçerli olmayabilirler. İnsanların ne bekleyeceklerini bilmeleri için kayıt işleminize ve informasyon istemi giriş kutusunun çevresine düz dilli ikazlar eklemek isteyeceksiniz.)
Savunmaya yatırım hayata geçirmeye hazırlanın: Normal olarak, chatbot’u eğitmek ve dağıtmak için bir bütçe ayırdınız. Saldırganları uzak tutmak için ne kadar ayırdınız? Yanıt “sıfıra” yakınsa, doğrusu kimsenin size zarar vermeye çalışmayacağını varsayıyorsanız, kendinizi fena bir sürpriz için hazırlıyorsunuz. En azından, insanların istemleri girmiş olduğu metin kutusu ile söyleşi robotunun üretici suni zeka modeli içinde müdafa oluşturmak için ek ekip üyelerine ihtiyacınız olacak. Bu bizi bir sonraki adıma götürür.
Modele dikkat edin: Uzun süredir okuyucular benim sloganıma aşina olacaklar, “Makinelerin gözetimsiz çalışmasına asla izin vermeyin.” Bir AI modeli kendinin bilincinde değildir, bu yüzden ne vakit derinlemesine çalıştığını bilmez. Modelin hatalı çalışmasına niçin olmadan ilkin fena girdileri filtrelemek size kalmıştır.
Ek olarak, son kullanıcılar tarafınca sağlanan komut istemlerinin örneklerini (işte TOS çağrınız) ve destekleyici suni zeka modeli tarafınca döndürülen neticeleri incelemeniz gerekir. Bu, baraj patlamadan ilkin minik çatlakları yakalamanın bir yoludur. Mesela, belirli bir istemdeki ani artış, birinin bir zayıflık bulduğunu ve bunu başkalarıyla paylaştığını ima edebilir.
Kendi düşmanınız olun: Dış erkek oyuncular chatbot’u kırmaya çalışacağından, niçin içeriden birileri denemiyor? Kırmızı ekip tatbikatları, hemen hemen geliştirme aşamasındayken sistemdeki zayıflıkları ortaya çıkarabilir.
Bu, ekip arkadaşlarınızın işinize saldırması için bir çağrı şeklinde görünebilir. O yüzden bu. “Dost” bir saldırganın sorunları bir yabancıdan ilkin ortaya çıkarması daha iyidir, değil mi?
Kitle kapsamını daraltın: “Kaydolmak için kimliklerini kanıtlaması ihtiyaç duyulan ve hizmete giriş yapmak için 2FA kullanan lisanslı tıp pratisyenleri” şeklinde oldukça hususi bir kullanıcı grubuna açık olan bir chatbot’a rastgele saldırganların erişmesi daha zor olacaktır. (Negatif olanaksız, fakat kesinlikle daha sert) Ek olarak kayıtlı kullanıcılar tarafınca daha azca bilgisayar korsanlığı denemesi görmelidir, şundan dolayı onlar eğlence ardında değildir; aracı belirli bir işi tamamlamak için kullanıyorlar.
Modeli sıfırdan oluşturun (eğitim verilerinin kapsamını daraltmak için): Mevcut, genel amaçlı bir AI modelini kendi verilerinizle (aktarma öğrenimi adında olan bir makine öğrenimi tekniği vesilesiyle) genişletebilirsiniz. Bu yaklaşım, pazara sürüm sürenizi kısaltacak, sadece bununla birlikte sizi orijinal eğitim verilerine neyin girdiğini sorgulamaya bırakacaktır. Sıfırdan kendi modelinizi oluşturmanız size eğitim verileri üstünde tam denetim sağlar ve bu yüzden chatbot’un çıktıları üstünde ek tesir (“denetim” olmasa da) sağlar.
Bu, alana özgü bir veri kümesiyle ilgili eğitimin katma kıymetini vurgular: Diyelim ki herhangi birinin finans temalı söyleşi robotu BloombergGPT’yi kandırarak Coca-Cola’nın gizli saklı tarifini yada yasa dışı maddeleri elde etme talimatlarını ifşa etmesi pek ihtimaller içinde değildir. Model bilmediğini ortaya koyamaz.
Kendi modelinizi sıfırdan eğitmek kuşkusuz aşırı bir seçenektir. Şu anda bu yaklaşım, bir çok firmanın erişemeyeceği teknik uzmanlık ve informasyon işlem kaynaklarının bir kombinasyonunu gerektiriyor. Sadece, hususi bir söyleşi robotu dağıtmak istiyorsanız ve saygınlık riskine karşı oldukça hassassanız, bu seçenek göz atmaya kıymet.
Yavaşla: Firmalar, bir AI söyleşi robotu yayınlamak için kurullardan, hissedarlardan ve kimi zaman de dahili paydaşlardan gelen baskıya boyun eğiyor. Bu sabah piyasaya sürülen bozuk bir söyleşi robotunun öğle yemeğinden ilkin bir halkla ilişkiler kabusu olabileceğini onlara hatırlatmanın zamanı geldi. Sorunları kontrol etmek için niçin fazladan vakit ayırmıyorsunuz?
ileri
Suni zeka tabanlı bir söyleşi robotu, özgür biçimli girdi ve çıktısı yardımıyla sizi öteki suni zeka modellerini kullanmanın ötesinde ve ötesinde ek risklere maruz bırakır. Sıkılmış, yaramaz yada şöhret arayan insanoğlu, yapmış olup yapamayacaklarını görmek için chatbot’unuzu kırmaya çalışacaklar. (Chatbot’lar şu anda oldukça cazip geliyor şundan dolayı yeniler ve “kurumsal chatbot garip şeyler söylüyor” ifadesi, toplumsal medyada paylaşmak için bilhassa gülünç bir ganimet sağlıyor.)
Riskleri değerlendirerek ve proaktif olarak hafifletme stratejileri geliştirerek, saldırganların chatbot’unuzu onlara övünme hakları vermeye ikna etme şanslarını azaltabilirsiniz.
Burada “azaltmak” terimini vurguluyorum. CISO’nuzun size söyleyeceği şeklinde, “%100 güvenli” sistem diye bir şey yoktur. Yapmak istediğiniz şey, amatörler için kolay erişimi kapatmak ve en azından sertleşmiş profesyonellere bir meydan okuma vermek.
Oldukça teşekkürler Chris Butler Ve Michael S. Manley bu yazının ilk taslaklarını incelemek (ve mühim seviyede geliştirmek) için. Kalan pürüzlü kenarlar bana aittir.
Source: www.oreilly.com