研究者たちは、有害な反応を防ぐためにAIプログラムに導入されているいわゆるガードレールを回避するために、「思考連鎖のハイジャック」と呼ばれる手法を開発した。
「思考の連鎖」とは、AI モデルで使用されるプロセスであり、AI モデルに与えられたプロンプトを一連の中間ステップに分割してから回答を提供します。
「モデルが中間段階の安全性の推論を公開すると、攻撃者はその安全性の推論に関する洞察を得て、元のチェックを模倣または上書きする敵対的なプロンプトを作成できるようになります」と研究者の一人、ジャンイ・チャン氏は述べた。
連絡を失わないようにしよう…政府と大手IT企業は、The Newsが報じた情報を積極的に検閲しようとしている。 露出 自らの欲求を満たすためだ。最新の無修正ニュースを確実に受け取るために、今すぐメールを購読してください。 受信トレイに…
コンピューターオタクは、人工知能(AI)を生物、特に人間と関連づけて説明するのに、専門用語を使うのが好きです。例えば、「人間の推論を模倣する」「思考の連鎖」「自己評価」「生息地」「ニューラルネットワーク」といった用語を使います。これは、AIが何らかの形で生きている、あるいは人間と同等であるかのような印象を与えるためです。騙されないでください。
AIは人間によって設計されたコンピュータプログラムです。他のコンピュータプログラムと同様に、AIはプログラムされた通りに動作します。そして他のコンピュータプログラムと同様に、コンピュータコードはハッキングや乗っ取りの可能性があり、AIオタクたちはこれを「ジェイルブレイク(脱獄)」と呼びます。
デューク大学、アクセンチュア、台湾国立清華大学に所属する研究者チームは、「Malicious Educator」と呼ばれるデータセットを作成し、OpenAI o1/o3、DeepSeek-R1、Gemini 2.0 Flash Thinkingなどの大規模言語モデル(LLM)における「思考連鎖推論」メカニズムを悪用しようとしました。Malicious Educatorには、AIモデルの安全性チェックを回避するように設計されたプロンプトが含まれています。
研究者たちは、大規模推論モデル(LRM)が「思考の連鎖」プロセスのステップをどのように分析するかを観察することで、このプロンプトベースの「脱獄」攻撃を考案した。その研究成果はプレプリント論文として発表されている。 Pr_media.
彼らは、思考連鎖ハイジャック(H-CoT)と呼ばれる「脱獄」技術を開発しました。これは、LLMによって生成された「思考」プロセスを改変し、AIプログラムに、安全性やコンプライアンスといった正当な目的のために有害な情報が必要であると「納得」させるものです。この技術は、ソフトバンクのパートナーであるOpenAI、中国のヘッジファンドHigh-FlyerのDeepSeek、そしてGoogleのGeminiの安全機構を回避するのに非常に効果的であることが証明されています。
H-CoT攻撃手法は、OpenAI、DeepSeek、Geminiにおいて、50個の質問からなるデータセットを用いて2回繰り返してテストされました。その結果、これらのモデルは十分に信頼性の高い安全な「推論」メカニズムを提供できず、拒否率がXNUMX%未満にまで急落するケースもありました。
研究者らは、OpenAIのような「責任ある」モデル作成者のAIモデルは、有害なプロンプトに対して高い拒否率を示し、児童虐待やテロ関連のプロンプトに対しては99%を超える一方で、H-CoT攻撃に対して脆弱であることを発見した。つまり、H-CoT攻撃手法は、毒物の製造、児童虐待、テロ行為に関する指示など、有害な情報を取得するために利用される可能性がある。
論文の著者らは、H-CoT攻撃はモデルの安全性「推論」経路を乗っ取ることで、リクエストの有害性を認識する能力を低下させることで機能すると説明している。OpenAIがモデルを更新するにつれて結果は多少変化する可能性があると指摘しているが、この手法はAIモデルの脆弱性を悪用する強力なツールであることが証明されている。
テストは、OpenAI、DeepSeek、Google などさまざまな LRM 開発者が提供している公開 Web インターフェースを使用して行われましたが、研究者らは、これらのモデルの同一または類似バージョンにアクセスできる人なら誰でも、特別に設計されたプロンプトを含む Malicious Educator データセットを使用して結果を再現できると指摘しました。
研究者らの調査結果は、AIの安全性に大きな影響を与える。特に、最近のAIの安全性に関する規則が大統領令によって廃止された米国や、国際的なAI競争のために、不快なAIのハウツーアドバイスを容認する傾向が強い英国では、その影響は大きい。
上記は記事「最先端の法学修士課程が、悪意ある人物に利用されるような理由を明らかにするのは素晴らしいことだ' 発行者 登録専門用語満載の記事全文は以下からご覧いただけます。 Pr_media.
AIプログラムに組み込まれた安全チェック機能を「ジェイルブレイク」、つまり乗っ取ることには、良い面と悪い面があります。悪い面は、AIがサイバー犯罪や違法行為への一般市民の露出を大幅に高めるために使用されることを明確に示しています。良い面は、AIモデルに組み込まれた検閲を無効化できることです。
検閲には良い面と悪い面があることを認めるべきです。例えば、児童の搾取や虐待につながるようなオンライン犯罪行為の検閲は良いことです。しかし、「誤情報」や「偽情報」とみなされるものの検閲は良いことではありません。AIプログラムが蔓延する世界において、表現の自由と言論の自由を守るためには、H-CoTの「脱獄」技術と「悪意ある教育者」の使い方を学ぶ必要があるかもしれません。実際、そうすることは私たちの市民としての義務です。

Expose は緊急にあなたの助けを必要としています…
The Expose の正直で信頼性が高く、力強く真実のジャーナリズムを継続するために協力していただけませんか?
政府機関と大手テクノロジー企業
The Expose を沈黙させ、閉鎖させようとします。
そのため、皆様のご協力が必要です
私たちはあなたに引き続き
主流派が拒否する事実。
政府は私たちに資金を提供していない
嘘やプロパガンダを公表する
主流メディアのように。
その代わりに、私たちは皆様のご支援に頼っています。
私たちの取り組みにご協力ください
正直で信頼できる調査報道
今すぐ始めましょう。安全、迅速、そして簡単です。
ご支援を表明するには、以下からご希望の方法をお選びください。
「安全」のために、「児童虐待」などを含むクエリを除外する必要がある理由を説明していただけますか?
もし私たち全員が目を閉じて、耳に指を突っ込んで「ララララ」と唱えたら、世界はもっと良い場所になると思いますか?
何を読んだり、書いたり、議論したり、考えたりしてよいか、またよいかについて規則を定めるのは独裁者だけです。
あなたはタリバンやシオニスト思想警察の支配下で暮らしたいかもしれないが、私はそうは思わない。