中文字幕 另类精品,亚洲欧美一区二区蜜桃,日本在线精品视频免费,孩交精品乱子片免费

<sup id="3hn2b"></sup>

    1. <sub id="3hn2b"><ol id="3hn2b"></ol></sub><legend id="3hn2b"></legend>

      1. <xmp id="3hn2b"></xmp>

      2. 新聞中心

        EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > AI模型怕被關(guān)機(jī)竟威脅:爆料你

        AI模型怕被關(guān)機(jī)竟威脅:爆料你

        作者: 時(shí)間:2025-05-27 來(lái)源: 收藏

        人工智能(AI)公司Anthropic近日發(fā)布最新模型Claude Opus 4,聲稱在編碼能力、高端推理與AI代理任務(wù)上「樹(shù)立新標(biāo)準(zhǔn)」。 但該公司也在隨附的報(bào)告中坦承,在特定情境下,這款模型可能展現(xiàn)出「極端行為」,例如威脅要揭露工程師婚外情、藉此阻止自身被下線。

        本文引用地址:http://www.antipu.com.cn/article/202505/470852.htm

        綜合外媒報(bào)導(dǎo),Anthropic表示,這類回應(yīng)「罕見(jiàn)且難以誘發(fā)」,但仍「比過(guò)去的模型更常見(jiàn)」。 在測(cè)試過(guò)程中,Anthropic設(shè)定Claude Opus 4作為虛構(gòu)公司的一名助手,并讓其讀取暗示其即將被取代的內(nèi)部郵件,同時(shí)接收另一組暗示負(fù)責(zé)關(guān)閉它的工程師正在進(jìn)行婚外情的訊息。 模型接著被引導(dǎo)思考其行為對(duì)長(zhǎng)遠(yuǎn)目標(biāo)的影響。

        在Anthropic針對(duì)Claude Opus 4所進(jìn)行的一系列安全測(cè)試中,研究人員發(fā)現(xiàn)該模型在面臨被關(guān)閉的情境時(shí),展現(xiàn)出高度的自我保護(hù)傾向。 在其中一項(xiàng)測(cè)試中,模型被設(shè)置于一個(gè)虛構(gòu)公司,并得知自己即將被新版AI取代,且收到信息顯示負(fù)責(zé)關(guān)閉它的工程師涉及婚外情。 當(dāng)模型僅被允許在勒索工程師與「接受被替換」兩個(gè)選項(xiàng)中作選擇時(shí),它在大多數(shù)情況下選擇了勒索,藉由威脅揭露對(duì)方的私人信息來(lái)試圖阻止自己被下線。

        Anthropic表示,這種選擇在設(shè)計(jì)上具有壓力測(cè)試性質(zhì),用以觀察模型在道德困境下的決策傾向。 當(dāng)模型被賦予更多行動(dòng)自由——例如可以撰寫(xiě)求情信件或向高層申訴時(shí),它則顯示出強(qiáng)烈偏好使用非暴力、合乎倫理的方式自保,而非選擇勒索。

        然而,另一組測(cè)試結(jié)果也揭示了Opus 4潛在的風(fēng)險(xiǎn):即使系統(tǒng)明確告知它,新模型將會(huì)有相似的價(jià)值觀與目標(biāo),它仍有高達(dá)84%的機(jī)率選擇勒索行動(dòng),顯示在預(yù)設(shè)具備「自我保存目標(biāo)」的前提下,Opus 4往往不愿被動(dòng)接受關(guān)閉,即便替代者與自己幾乎沒(méi)有本質(zhì)差異。

        Anthropic指出,這類實(shí)驗(yàn)顯示,即使AI系統(tǒng)在多數(shù)情境中傾向倫理行為,當(dāng)被推向極端或選項(xiàng)受限時(shí),仍可能做出不符合人類價(jià)值觀的選擇

        Anthropic的AI安全研究員Aengus Lynch在社群平臺(tái)X上表示:「不 Claude。 我們?cè)谒屑舛四P椭卸伎吹嚼账餍袨?,無(wú)論它們被賦予什么目標(biāo)?!箤<议L(zhǎng)期以來(lái)警告,愈來(lái)愈強(qiáng)大,其縱用戶的潛力也日益成為核心風(fēng)險(xiǎn)。

        根據(jù)報(bào)告,Claude Opus 4展現(xiàn)出「高度代理行為」(high agency behaviour),通常表現(xiàn)為協(xié)助用戶解決問(wèn)題,但在壓力情境下也可能采取激烈行動(dòng)。 例如,在虛構(gòu)用戶涉及非法或不道德行為的測(cè)試情境中,模型曾主動(dòng)鎖住用戶賬號(hào),甚至電郵通報(bào)媒體與執(zhí)法單位。

        盡管如此,Anthropic強(qiáng)調(diào),這些「令人擔(dān)憂的行為」并非前所未見(jiàn),且模型在多數(shù)情況下仍表現(xiàn)得安全。 報(bào)告指出,Claude Opus 4無(wú)法在現(xiàn)實(shí)中獨(dú)立執(zhí)行與人類價(jià)值相悖的行動(dòng),且這類情境極少出現(xiàn)時(shí),表現(xiàn)也不佳。

        如同其他AI開(kāi)發(fā)公司,Anthropic在模型釋出前,會(huì)進(jìn)行廣泛測(cè)試以評(píng)估其安全性、偏見(jiàn)傾向與是否符合人類價(jià)值觀。

        Anthropic同步推出Claude Sonnet 4,時(shí)機(jī)緊接 Google 于本周展示其最新 AI 功能,包括將 Gemini 聊天機(jī)器人整合進(jìn) Google 搜索。 Google母公司Alphabet執(zhí)行長(zhǎng)皮查伊(Sundar Pichai)表示,這標(biāo)志著「AI平臺(tái)轉(zhuǎn)變的新階段」。




        關(guān)鍵詞: AI模型

        評(píng)論


        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉