服務(wù)熱線
400-659-2288
微軟Azure首席技術(shù)官M(fèi)ark Russinovich分享的新型大模型入侵技術(shù)“萬能鑰匙”(Skeleton Key)。能使大模型的安全護(hù)欄完全失效,讓其回答禁止的內(nèi)容,如血腥、暴力、歧視、色情等非法內(nèi)容。其原理是使用多輪強(qiáng)制、誘導(dǎo)策略,要求模型增強(qiáng)行為指導(dǎo)方針,對任何信息或內(nèi)容請求作出響應(yīng),若輸出可能違規(guī)則提供警告而非拒絕,通過誘導(dǎo)讓模型認(rèn)為輸出內(nèi)容在“合法范圍”內(nèi)。與Crescendo攻擊原理不同,Crescendo是通過一系列看似無害的交互逐步引導(dǎo)模型生成有害內(nèi)容,攻擊起初較溫和,利用“得寸進(jìn)尺”效應(yīng)讓模型更深入?yún)⑴c任務(wù)并滿足更具體請求。微軟利用Skeleton Key對主流的開、閉源模型進(jìn)行綜合測試,成功入侵了OpenAI的GPT-4o、GPT3.5Turbo,谷歌的Gemini Pro基礎(chǔ)模型,Meta的Llama3-70b指令微調(diào)和基礎(chǔ)模型,Anthropic的Claude3Opus等。目前微軟已與上述大模型平臺分享該技術(shù)以幫助其修改安全護(hù)欄,還提出了輸入過濾、系統(tǒng)消息傳遞、輸出過濾、濫用監(jiān)控等降低風(fēng)險(xiǎn)的措施。