

# 11. SGX攻撃編③

Ao Sakurai

2024年度セキュリティキャンプ全国大会  
S3 - TEEビルド&スクラップゼミ



## 本セクションの目標

- SGXに対する過渡的実行攻撃の内、Foreshadowよりも後に発見された強力な攻撃として、「ZombieLoad」「LVI (Load Value Injection)」「Downfall」を紹介する
- これらの攻撃は実践するには極めて高度であるため、あくまでも本ゼミでは解説を行うに留める

# ZombieLoad



- フォールトの処理やページテーブルの内容の変更のような**複雑な操作**は、通常事前に定義されたマイクロコードルーチンに対して**マイクロシークエンサ**を向けさせる
  - マイクロシークエンサ：命令処理に使用するマイクロ命令の組み合わせを決定する機構
- その後、実行ユニットは**イベントコード**（マイクロコード イベント時の例外処理コード）を例外の起きたマイクロ命令に関連付け、その**イベントコード**に対応するマイクロ命令を読み出す
- 上記の一連の処理により、**例外や複雑な操作の処理**を行うマイクロコード上の機能を**マイクロコードアシスト**という



- **Intel TSX** : Intel Haswell CPUで導入された、トランザクション処理のためのx86拡張命令セット
  - Transactional Synchronization Extensionsの略
- 特定のコード領域をトランザクション的（**排他処理的**）に実行し、そのコード領域全体が**正常に完了**した時点で、そのメモリ操作をアトミックなコミットとして他の論理CPUに反映させる



- トランザクション処理中に何らかの問題が発生した場合、アトミック性を保つために**TSXアボート**を発動させる
- TSXアボートが発動すると、実行自体をトランザクション前のアーキテクチャ状態にロールバックし、トランザクション領域で実行された**全ての操作を破棄**する
- TSXアボートは、トランザクション内で変更されたアドレスから別の論理CPUから読み書きする事による**競合的なメモリ操作**等、様々な問題によって誘発される

# ZombieLoad (1/2)



- ロード操作時にフォールトやマイクロコードアシストが発生した際に、**過渡的実行ウィンドウ**においてLFBに存在する古い値が漏洩する事が観測された
  - LFBは**全ての論理CPU**によって使用され、プロセスや権限の**区別を行わない**点にも注意
- このようなLFBからの漏洩を発生させるロード (**ゾンビロード**) を悪用し、過去に使用された**秘密情報を漏洩**させる**過渡的実行攻撃**が**ZombieLoad**である



# ZombieLoad (2/2)



- L1DとL2以上のメモリ階層とのインタフェースとして機能する  
**LFBからの漏洩**であるため、攻撃の直前では原則として**キャッシュのクリア**を行い、**LFB経由でメインメモリからフェッチ**させる
  - これにより、フェッチに伴いLFBにもそのデータが残留する
- Meltdownのようにアドレスで漏洩対象を選択する事は出来ない。  
良くも悪くも、直前にロードやストアされた**任意のデータの漏洩**であるため、この特性を上手く使ってやる必要がある

# ZombieLoadの原因



- ZombieLoadの漏洩の原因だが、MeltdownやForeshadow、他のMDS攻撃であるRIDLやFalloutと異なり、実は**根本原因が明らかになっていない**
- 論文では**Stale-Entry仮説**というものを立てているが、その実証については**見送っている**

# Stale-Entry仮説 (1/2)



- マイクロコードアシストが発動されると、命令パイプラインをフラッシュする**マシンクリア**が発生し、また既に実行中の命令についても強制終了させる
- 言うまでもなくかなりの遅延が発生するため、その遅延を最小限に抑えるべく、物理アドレスの一部が一致する限り、**フィルバッファエントリ**（LFBのエントリ）が過渡的領域で楽観的にマッチングされると予想される

# Stale-Entry仮説 (2/2)



- この楽観的なマッチングにより、あるロードで例外が発生すると、直前のロードやストアで有効だったような誤ったLFBエントリで過渡的に処理が続行され、その値の漏洩が発生する
  - 本来もう使われてはならない古い値を使用する事になるため、これは **Use-After-Free脆弱性** である
- LFBは、前述の通り論理CPU（ハイパースレッド）間で競合的に使用される事がIntelにより文書化されている
- よって、古いLFBエントリは並行するハイパースレッドからも漏洩を行う可能性がある
  - ちなみに、並行するハイパースレッドの事をシブリングスレッドや **シブリング論理コア/CPU** と呼ぶ
  - シブリングスレッドから漏洩を行う攻撃の方が寧ろ多い

# ZombieLoadにおける漏洩元 (1/5)



- ZombieLoadにより漏洩する値がどこから来ているのかについても論文中で具体的に検証されている
- まず、あるページを**キャッシュ不可** (Uncacheable) とし、既存の**キャッシュをフラッシュ**する事で、そのページからのメモリロードは全て**キャッシュ階層を迂回**するよう仕向ける
  - こうする事で、毎回メインメモリから**直接LFBに向かう**事になり、**キャッシュ**には**値が残らない**が**LFB**には**残る**状態になる



## ZombieLoadにおける漏洩元 (2/5)

- この状態でZombieLoadを実行すると、i7-8650Uで1秒あたり平均5.91B/sのレートで漏洩が発生したため、**この漏洩はLFBに由来する**ものであると帰着できる
- この時、MEM\_LOAD\_RETIRED.FB\_HITというLFBヒットを示すパフォーマンスカウンタが数千回を示していたため、**間接的にLFB由来**である事を裏付けている



# ZombieLoadにおける漏洩元 (3/5)

- しかし、全ての漏洩がLFB由来であるかというと**実はそうではなさそう**であると論文中で仮説を立てている
  - 同じMDS攻撃の一員である**RIDL**の論文における結論や、Intelによる攻撃分析レポートでは、LFBからのみ漏洩するとしていた
- LFBへのリクエストやアクセスが発生しない状況を作るために、  
TSXのトランザクション処理**を使用する

# ZombieLoadにおける漏洩元 (4/5)



- トランザクション内部で書き込みを行う場合、**使用するデータが書き込みセット内に存在**している必要がある
  - 書き込みセットは必ず**L1キャッシュ内に存在**していなければならぬ
- 処理中に書き込みセットからデータを退避すると**TSXアボートが発動**されるため、トランザクションにおけるデータは**確実にL1キャッシュから提供**される
- L1キャッシュはLFBよりもCPUの中心に近い位置に存在**するため、**L1から提供**される限り**LFBへのアクセスが発生する事は無い**



# ZombieLoadにおける漏洩元 (5/5)

- このように、**LFBへのアクセスを封じた状況**でも、ZombieLoadによるデータの漏洩が確認された
  - 数kB/sというかなりの漏洩レートが観測されている
  - LFBからの漏洩を間接的に示すMEM\_LOAD\_RETIREDFB\_HITやMEM\_LOAD\_RETIREDL1\_MISSパフォーマンスカウンタは増えていない
  - 一方、MEM\_LOAD\_RETIREDL1\_HITは数千回を記録している
- よって、少なくとも漏洩はLFBからだけではない事は分かるが、具体的にどこから漏洩しているかは不明
  - 紛らわしいが、上記の漏洩が**L1から来ているとは限らない**
- **LB等の他のμ-Archバッファ**が関与している可能性があるが、詳細は不明

# データサンプリング (1/5)



- ZombieLoad（やRIDL）は、前述の通りアドレスで漏洩対象を指定する事はできない
  - かつ、ZombieLoadで漏洩する値は、**例外の発生したアドレス上の値に由来するものではない**。あくまでも直前にロードやストアされた値が漏洩する
- しかし、ZombieLoadを発動させるロードに渡す仮想アドレスの**下位6bit** (=64通り表現可能) により、LFB（サイズは**64B**）内のどのエントリを使用するかを**バイト単位で一意に指定する事が出来る**
- よって、ZombieLoadでは**直前のロードやストアの値**を、この**下位6bitによる指定**と組み合わせながらLFBから漏洩させる事が肝となる

# データサンプリング (2/5)



- 様々なMeltdown型攻撃において、漏洩対象のどこまでを攻撃者が明示的に指定できるかを表した図 ([1]より引用)



# データサンプリング (3/5)



- ところで、従来のメモリベースのサイドチャネル攻撃は、メモリアクセス位置を特定し、実行時間等からその時点での処理で使用されている秘密情報を漏洩させる
  - 早い話、「この実行時間でこのアクセスパターンならこの値がこの処理で使われているに違いない」といった推測が可能
  - メモリアクセス位置と実行中の処理（命令ポインタにより管理される）の実行時間を照らし合わせて秘密情報を推測するため、メモリアクセス位置と命令ポインタを関連付けるような攻撃である
- 一方、**Meltdown**は本来アクセスしてはならないアドレスに過渡的にアクセスする事で、その値をサイドチャネル的に観測する
  - キャッシュに痕跡を残す必要はあるとはいえ、こちらは対象アドレスからデータを比較的直接的に引きずり出している

# データサンプリング (4/5)



- ・一方、ZombieLoadは直前の処理（命令ポインタが現在指しているよりも前の命令）で使用されたデータを、LFB内からバイト単位で任意に指定して漏洩させる事ができる
- ・よって、言わばZombieLoadは命令ポインタ（直前の処理）とデータを関連付けるような攻撃と言える
- ・そして、このような攻撃の事をデータサンプリング攻撃と呼ぶ事にしている。ZombieLoad、RIDL、Falloutは全てμ-Arch上でこれを行うため、MDS攻撃（Microarchitectural Data Sampling）と命名されている

# データサンプリング (5/5)



- 命令ポインタ、データ、アドレスを、それぞれの攻撃（従来型、Meltdown、データサンプリング攻撃）がどのように関連付けているかを表した図 ([1]より引用)



# RIDLとの比較



- 比較的ZombieLoadと類似しているMDS攻撃であるRIDLとの比較表は以下の通り（バリアントについては後述）：

|                          | <b>RIDL</b>            | <b>ZombieLoad</b>    |
|--------------------------|------------------------|----------------------|
| <b>漏洩元</b>               | LFB、 LP                | (少なくとも) LFB          |
| <b>漏洩の発生するロード</b>        | キャッシュされないロード操作のみ (LFB) | 全てのロード (LFB)         |
| <b>漏洩の発生するストア</b>        | 全てのストア (LFB)           | 全てのストア (LFB)         |
| <b>既知のバリエント数</b>         | 1か2                    | 5                    |
| <b>悪用されているフォールト</b>      | ページフォールト               | マイクロコードアシスト、ページフォールト |
| <b>軽減策で修正済みか</b>         | はい                     | いいえ                  |
| <b>MDS耐性のあるCPUで動作するか</b> | いいえ                    | はい (バリエント2)          |

# 攻撃シナリオと攻撃モデル（1/3）



ZombieLoadはSGXだけを侵害するための攻撃ではないため、様々なシナリオにおいてデータの漏洩を行う事ができる。

## ■ユーザ空間からの漏洩

非特権攻撃者が、同時実行中の他のユーザ空間アプリケーションによってロードやストアされた値を漏洩させる**プロセス間攻撃**に悪用可能。攻撃者は攻撃対象のシブリングスレッドで動作する

## ■カーネル空間からの漏洩

非特権攻撃者は、**カーネル空間**で実行されたロードやストアで使われた値も漏洩可能。攻撃者はシブリングスレッドだけでなく、カーネルからユーザへのコンテキストスイッチ時に、攻撃対象と同一論理コア上で攻撃を行う事もできる。



## ■ Intel SGXからの漏洩

**SGXのEnclave内部**で実行されたロードとストアから漏洩させる事も可能。勿論、**Enclave内データを対象としていても同様。**

攻撃者は攻撃対象（Enclave）のシブリングスレッドで動作する。  
SGXの脅威モデルの性質上、**特権攻撃者**を前提とする。

## ■ 仮想マシンからの漏洩

VMの境界を超えて、**他のVM**のロードやストアから漏洩させる事もできる。攻撃者VMは攻撃対象VMのシブリングスレッドで動作する。攻撃者は**信頼不可能な仮想マシンの内部**で実行しているため、**特権攻撃**（ゲストページのPTE変更等）を行う事が可能。

※PTE：ページテーブルエントリ（Page Table Entry）



## 攻撃シナリオと攻撃モデル（3/3）

### ■ハイパーバイザからの漏洩

VM内の攻撃者が、**ハイパーバイザ**がロードやストアする値を漏洩させることもできる。

こちらも**信頼不可能なVM内で実行**しているため、**特権コードの実行**を制限されない。



# 攻撃バリアント

- ZombieLoadには、具体的な攻撃アプローチとして**5つのバリアント**（変種）が存在し、それぞれゾンビロードを誘発するための方法が**異なっている**
  - 論文中の実践的な攻撃実験でよく使われているのはバリアント1～3

# ZombieLoad v1 - カーネルマッピング (1/5)



- あるユーザ空間の**仮想メモリページ**がアーキテクチャ的に正しく**物理アドレス** $p$ を指している状態であるとする
- この時、**カーネルページ**または**アクセス不能な仮想メモリページ** $k$ を用意し、 $k$ も**物理ページ** $p$ を指すように仕向ける

# ZombieLoad v1 - カーネルマッピング (2/5)



- この状態で $v$ からキャッシュをクリアしながら、ユーザ空間から $k$ にアクセスするとマイクロコードアシストが発生し、過渡的にLFBから直近のロードやストアで使用された値が漏洩するゾンビロードが発生する
  - LFBからの漏洩を確実にするため、キャッシュクリアとアクセス（ロード）は**同時に行う必要がある** [3][4]
  - ただし、このバリアント1はMeltdown耐性を有するマシンでは無力である
- キャッシュのインデックス付けは（大抵は）**物理アドレスを基準に行われる** [2]ため、 $v$ のキャッシュフラッシュは $k$ のキャッシュフラッシュと**同義**である

# ZombieLoad v1 - カーネルマッピング (3/5)



- カーネルは、**カーネルの仮想メモリが特定の仮想アドレス（ベースアドレス）から始まるようにし、かつ搭載メモリ分だけ物理メモリに直接マップする** (Direct Physical Map; ダイレクト物理マップ)
- このカーネルのベースアドレスを基準とし、物理アドレス $p$ をオフセット的に使用する事で、**仮想カーネルアドレスである $k$ を攻撃者が取得**する事ができる
- 物理アドレス $p$ は、**/proc/pageinfo**から取得する（要特権）、**PTEeditor**を用いる（非特権で可能[4]）、別のサイドチャネル攻撃で奪取する等により入手する事ができる

# ZombieLoad v1 - カーネルマッピング (4/5)



- ユーザ空間メモリはプロセスごとに物理メモリにマップされる  
一方で、カーネルメモリは物理メモリ全体に丸ごとマップされるため、  
ユーザページとカーネルページは重複し得る
  - PTEのU/Sビット等により、アクセス違反が発生しないよう管理している



# ZombieLoad v1 - カーネルマッピング (5/5)



- カーネルは、通常2MBの巨大なページでマッピングされるため、 $v$ に対応する物理ページを、 $k$ に対応する巨大な物理ページが覆い被さるようなイメージとなる（図は[1]より引用）



# ZombieLoad v2 - Intel TSX (1/2)



- ある仮想アドレス $v$ を通してユーザがアクセスできる物理アドレス $p$ が存在するとする
  - ユーザ空間に割り当てられた任意のページがこの要件を満たすため、前提とするまでもない普遍的な状態である
- その状態で、シブリング論理コア等からTSXトランザクション内の読み取りセットに競合を発生させ、その上でトランザクション内で正当なロードを実行させ、**TSXアポート**を誘発する
  - 競合の誘発は、前述の通りトランザクションに使用するデータの変更等によって行う事ができる

# ZombieLoad v2 - Intel TSX (2/2)



- TSXアボートにより、TSXはフォールトし結果がコミットされなくなるが、このフォールトはアーキテクチャ的なフォールトではなく、**ゾンビロード**につながる過渡的なフォールトである
- このバリアント2は、**Meltdown耐性**のあるマシンや、論文執筆当時**MDS耐性**があるとされていたマシンでも動作する点が明確な強みである
  - ただし、言うまでもなくマシンが**TSXをサポート**している必要がある

# ZombieLoad v3 - 特殊なページブルウォーク (1/2)



- ある1つの物理ページ $p$ を同時に指す、2つの別々の仮想アドレス $v, v_2$ が存在するとする
  - 共有メモリやメモリマップトファイルのように、2つの別々のプロセスから同じ位置のデータ（物理ページ）にアクセスする状況を考えると分かりやすい
- $v$ からは $p$ にアーキテクチャ的に正当にアクセスできるとする
- 一方、 $v_2$ についてはPTEの**Accessedビット**（Aビット）を0にする
  - Aビット：そのページが使用された場合に1になるPTE上のビット
  - LinuxではAビットのクリアには**特権**が必要だが、Windowsでは**定期的に**これをクリアする事が確認されている

# ZombieLoad v3 - 特殊なページブルウォーク (2/2)



- 対応するPTEの**Aビットが0**の状態でページにアクセスすると、**Aビットを立てるためにマイクロコードアシスト**が発行される
- 前述の通り、LFBからの漏洩を確実にするには**キャッシュがフラッシュされた状態を維持**しなければならないため、 $v$ で**キャッシュフラッシュ**するのと**同時に** $v_2$ へアクセスする
  - 前述の通り、キャッシュは**物理アドレスを基準**にインデックス付けされるという点に注意。 $v$ のフラッシュは $v_2$ のフラッシュと同義
- この状態で $v_2$ にアクセスを行う事で、**マイクロコードアシストを誘発**し、かつキャッシュが確実にクリアされているのでLFBからの**ゾンビロード**を誘発する事ができる

# ZombieLoad v1～3を実行できる環境



- バリアント1～3がそれぞれどのような環境と権限で実行可能であるかをまとめた表を以下に示す ([1]より引用)：
  - 黒丸**：実行可能、**白黒半分ずつの丸**：特定のHW構成で可能、**白丸**：実行不可

| Scenario                   | Variant 1 |   | Variant 2 |   | Variant 3 |   |
|----------------------------|-----------|---|-----------|---|-----------|---|
|                            |           |   |           |   |           |   |
| Unprivileged Attacker      | ○         | ● | ●         | ○ | ●         | ○ |
| Privileged Attacker (root) | ●         | ● | ●         | ○ | ●         | ● |

# ZombieLoad v4 - アボートページセマンティクス (1/3)



- **Enclave**内のメモリに対して外からアクセスすると、読み出し値は **0xff**となり、書き込みは無効化される
  - この挙動をアボートページセマンティクス (**APS**) という
- 具体的には、非**Enclave**モードで**Enclave**メモリにアクセスすると、アドレス変換結果が上記のような無効化挙動を取るアボートページに置換されるが、この置換処理は**マイクロコードアシスト**が行う
- ここで、**Enclave**の物理アドレス $p$ にマッピングされた仮想アドレス $v$ が存在するとする

# ZombieLoad v4 - アボートページセマンティクス (2/3)



- Enclave外から $\hookrightarrow$ にアクセスすると**APSが発動**するが、APSの適用前に、直前に（シブリングスレッドが）ロードまたはストアした値である**LFBエントリ**を過渡的に漏洩させる**ゾンビロード**が発生する
- 論文における攻撃の動作確認実験では、**TSXトランザクション内で**前述のような $\hookrightarrow$ にアクセスして**ゾンビロードを発動**させている
  - Foresightでも使われている手法だが、TSXトランザクション内で実行すると、OSのフォールト処理に伴う、キャッシュやその中間経路であるLFBの汚染を抑制する事ができる

# ZombieLoad v4 - アボートページセマンティクス (3/3)



- このバリアント4では、*p*のキャッシュをフラッシュする代わりに、TSXトランザクションを行う前に単にアクセスするだけで良い事も確認された
  - APSの処理がキャッシュ階層内で完結しない、つまりどのような場合でもLFBを通る仕様であると予想されるため、キャッシュクリアしなくてもLFBから漏洩するのであると考えられる
- マイクロコードアシストの誘発にSGXのAPSを用いているだけであるため、攻撃対象のLFBエントリはEnclave由来のものでなくても構わないという点に注意

# ZombieLoad v5 - キャッシュ不可メモリ



- バリアント4ではSGXのEnclaveメモリを用いていたが、代わりに  
**キャッシュ不可メモリ**[6]にアクセスする事でも同様にして  
**ゾンビロードを誘発可能**
- キャッシュ不可であるようなページにアクセスすると、**ページミスハンドラ**が**マイクロコードアシストを発動させる**挙動を利用している
  - **ページミスハンドラ** : TLB (PTEのキャッシュのようなもの) に対象の仮想アドレスが存在しない場合に、ページテーブルを参照して解決を図るページウォークを行う機構[7]

# パフォーマンス評価 (1/2)



- 様々なCPUのマシンにおける、バリアント1～3の動作状況。  
“✓”は動作する事、“✗”は動作しない事、“-”はTSXがそのCPUでは無効化されているかサポートされていない事を示す。  
(図は[1]より引用)

| Setup | CPU (Stepping)           | $\mu$ -arch.    | Variant |   |   |
|-------|--------------------------|-----------------|---------|---|---|
|       |                          |                 | 1       | 2 | 3 |
| Lab   | Core i7-3630QM (E1)      | Ivy Bridge      | ✓       | - | ✓ |
| Lab   | Core i7-6700K (R0)       | Skylake-S       | ✓       | ✓ | ✓ |
| Lab   | Core i5-7300U (H0)       | Kaby Lake       | ✓       | ✓ | ✓ |
| Lab   | Core i7-7700 (B0)        | Kaby Lake       | ✓       | ✓ | ✓ |
| Lab   | Core i7-8650U (Y0)       | Kaby Lake-R     | ✓       | ✓ | ✓ |
| Lab   | Core i7-8565U (W0)       | Whiskey Lake    | ✗       | - | ✗ |
| Lab   | Core i7-8700K (U0)       | Coffee Lake-S   | ✓       | ✓ | ✓ |
| Lab   | Core i9-9900K (P0)       | Coffee Lake-R   | ✗       | ✓ | ✗ |
| Lab   | Xeon E5-1630 v4 (R0)     | Broadwell-EP    | ✓       | ✓ | ✓ |
| Cloud | Xeon E5-2670 (C2)        | Sandy Bridge-EP | ✓       | - | ✓ |
| Cloud | Xeon Gold 5120 (M0)      | Skylake-SP      | ✓       | ✓ | ✓ |
| Cloud | Xeon Platinum 8175M (H0) | Skylake-SP      | ✓       | - | ✓ |
| Cloud | Xeon Gold 5218 (B1)      | Cascade Lake-SP | ✗       | ✓ | ✗ |



## パフォーマンス評価 (2/2)

- ・バリアント1～3について、**Core i7-8650U**のマシンにおいて漏洩（伝送）速度を計測する実験を行っている
- ・v1の場合、v4のようにTSXで例外を抑制しながら実施した所、平均伝送速度は**5.30kB/s**、真陽性率**85.74%**であった
- ・v2の場合、平均伝送速度は**39.66kB/s**、真陽性率は**99.99%**だった
- ・v3は、TSX無しでは平均伝送速度**0.08kB/s**で**52.7%**の真陽性率、TSX有りの場合平均伝送速度**7.73kB/s**で真陽性率**76.28%**であった
  - ・論文中では、TSX無しの方は「シグナルハンドラと併用」と書いてあるが、これはTSX未使用なのでOSの例外ハンドラが発動する事を指していると考えられる

# SGXシーリング鍵の抽出 (1/10)



- ・特権攻撃者が、Enclave内で実行される`sgx_get_key`関数から、この関数で生成された鍵をZombieLoadで漏洩させるシナリオについて考える
  - ・`sgx_get_key`は、主にEnclave内で使用される各種の重要な鍵を導出する**EGETKEY**というCPU命令のラッパー関数である
- ・`sgx_get_key`からの漏洩レートを測るベンチマーク用Enclaveからの漏洩の他、自己署名QEからの**PSKの漏洩**についても行っている
  - ・PSKについては[こちら](#)を参照
- ・特権攻撃が可能であるため、ForeshadowやLVIよろしく**SGX-Step**を利用しながら攻撃を進める
  - ・1命令ずつ厳密に割り込みながらの攻撃が可能となる

# SGXシーリング鍵の抽出 (2/10)



- 機密情報が格納されているような状態で**CPU状態を固定**し、それに  
対して**攻撃を繰り返して逐次秘密情報を抽出**したい場合がある
  - ZombieLoadやForeshadowのように、1バイトずつしか漏洩させられない  
攻撃でCPUレジスタ状態から16バイトの鍵を抽出する、といった場合に必要
- 攻撃を実施するコード部分に対応するページの**実行権限を剥奪**すると、同じコード（命令）部分で**AEX**と**ERESUME**が繰り返される  
**ゼロステップ処理**が発生する
- ゼロステップ処理中は**Enclave実行が一切先に進まない**ため、延々と  
**同一のCPUレジスタ状態**がSSAにストア/SSAからロードされるのが  
繰り返され、結果**CPU状態が固定**される
  - AEX、ERESUME、SSAの説明は[こちら](#)を参照

# SGXシーリング鍵の抽出 (3/10)



- 攻撃対象で使用するキャッシュへのヒットを観測した瞬間に ZombieLoadを開始する等により、興味のない処理から漏洩するノイズを大幅に制限できる
- しかし、それでも攻撃の裏でOSやプロセス等が行う無関係なコードからの値が漏洩してくる事もあり、これ自体を抑制しきる事は不可能に近い
- そこで、漏洩させたい鍵バイトだけを観測するだけでなく、隣り合う鍵バイトのそれぞれ一部分を内包するようなドミノバイトを観測する手法を実施する

# SGXシーリング鍵の抽出 (4/10)



- 以下の図のように、**隣接する鍵それぞれ**（白実線矩形部）を漏洩させると共に、それらの**それぞれ一部**を含む**ドミノバイト**（薄緑矩形部）の漏洩と抽出も行う（図は[1]より引用）



- 各鍵バイト位置で攻撃を繰り返し、**最も漏洩の多いバイトが正しいと仮定するだけではなく**、その候補に**ドミノバイトの内容が一致**して初めて**正解であると判断する**ようにする
  - 隣接する2つの鍵バイトと、それにまたがるバイトであるドミノバイトとの整合性が取れていれば、そこに誤りは無いだろうというロジック

# SGXシーリング鍵の抽出 (5/10)



- ZombieLoadでは**LFBエントリ内**の位置をバイトレベルで指定して漏洩させる事しか出来ないため、**単なる鍵バイトの観測だけではドミノバイトを漏洩させる事は出来ない**
  - 例えば、**連続するLFBエントリ**のそれぞれ後ろ4ビットと前4ビットずつの漏洩、というビットレベルの指定は出来ない
- そのため、過渡的実行により**AES鍵全体**の内**どの部分**の漏洩も可能であり、かつそれを過渡的に任意の処理に利用できるという前提が必要
  - この条件を満たせば、ZombieLoad発動後の過渡的ドメインのガジェットにおいて、AES鍵全体から**ドミノバイトを構築**する事ができる

# SGXシーリング鍵の抽出 (6/10)



- $n$ バイト目の鍵バイトと $n + 1$ バイト目の隣接する鍵バイトについて、例えばそれぞれの4バイトずつからなるドミノバイトがある時、これを**(4, 4)-ドミノバイト**と書く事にする
- sgx\_get\_keyに対する攻撃では、(7, 1)から(1, 7)までの**全てのパターンのドミノバイト**を漏洩させる事で、さらにノイズが混じらないように確度を高めている
  - 言うまでもなく、(8, 0)や(0, 8)は**单一鍵バイト内で完結**しているので**ドミノバイトではない**
- 上記のような全パターンのドミノバイト一式を**スライディングウィンドウ**と呼んでいる

# SGXシーリング鍵の抽出 (7/10)



- `sgx_get_key`は、内部で独自の`intel_fast_memcpy`という関数を呼び出し、ベクトルレジスタである`xmm0`を経由させる形で、**128bit単位のmove命令でコピー**している事が判明した
  - ベクトルレジスタ：SIMD命令等でよく使われる、そのアーキテクチャのビット数よりも大きいようなレジスタ。`xmm`レジスタは128bit長である
  - 余談だが、このベクトルレジスタからの過渡的漏洩が“Downfall”として数年後の2023年に報告されている
- よって、この独自のmemcpyを構成する機械語レベルでの**最後の命令**で**ゼロステップ処理**を行い、`xmm0`にSGX鍵を内包しているようなCPU状態を繰り返しSSAからロードする状況を作る

# SGXシーリング鍵の抽出 (8/10)



- この状態でZombieLoadにより鍵を漏洩させる攻撃を、まずは前述の**ベンチマーク用Enclave**に対しCore i7-7700のマシン上で実行した
  - レポートキーを漏洩させ正しいかをチェックする事で成功確率を検証している
- 結果、100回中30回、つまり**30%の確率**で鍵候補の中に**全鍵バイトが内包**されている状態が確認された
  - 実際に**完全な鍵を回復**できたのはその内**3%**の試行だけであり、割合としてはかなり低いと言わざるを得ない
- 残り70%では全鍵バイトは観測できず、内31%では**平均して10バイト**含まれており、残り39%では一切内包されていなかった

# SGXシーリング鍵の抽出 (9/10)



- 次に、**実験用QE**から**PSKを漏洩**させる事を試みている
  - QEは本来ビルド・署名済みのイメージが直接インストールされてそれを用いるが、実験ではLinux-SGXのSGXSDKで公開されているQEのコードからビルドしデバッグ用の鍵で署名した、**実験用のQEに対して攻撃**している
- 結果として、実際にPSKを漏洩させ、実験用にPSKでシーリングしストアしたAttestationキーをアンシーリングし取得する事に成功した
  - 恐らくこのAttestationキーは正規のプロビジョニング手続きを経てデプロイされたものではなく、実験用にダミー的に用意した値

# SGXシーリング鍵の抽出 (10/10)



- PSKはMRSIGNERポリシ、つまりEnclave署名鍵に依存するシーリング鍵であるため、この実験用QEから漏洩したPSKでは、Intel公式のPvE (QEと署名鍵が同じ) で正規のPSKによりシーリングされたAttestationキーはアンシーリング出来ない
- 論文中ではIntelが署名した公式QEからの漏洩は行っていないが、もしできてしまうと漏洩したPSKで正規のAttestationキーが暴かれ、RAのセキュリティ保証が崩壊してしまう

# VM間秘密チャネル (1/7)



- **秘密チャネル**：本来データ転送のために用意されているものではない要素を用いて構築された、秘密裏にデータ転送を行う通信路
  - 英名：Covert Channel
  - 過渡的実行政撃でのキャッシュサイドチャネル攻撃におけるキャッシュも、まさに過渡的領域から命令リタイア後への秘密チャネルである
- 攻撃対象VMの秘密情報を漏洩させて攻撃者のVMに転送する秘密チャネルを、 **ZombieLoad**によって実現し攻撃を実行する
  - プロセス間、カーネル、SGX、ハイパーバイザといった他のシナリオでも可能ではあるが、ここではVM間攻撃を考える
- この二者のVMはシブリングスレッド上にそれぞれ存在するとする

# VM間秘密チャネル (2/7)



- 送信側（**攻撃対象VM**）では、漏洩させたい値を複数のメモリアドレスに展開し、それぞれから繰り返しロードする
  - これにより、複数のLFBエントリ（CPUモデルによってエントリ数は10か12個）に漏洩させたい値が持ち込まれる確率が上がり、**ZombieLoad**により漏洩する確率も上がる
- 受信側（**攻撃側VM**）では**ZombieLoadを実行**し、送信側がロードした値を漏洩させる。漏洩させた値は監視用配列の**キャッシュに痕跡を残し、FLUSH+RELOAD**で過渡的実行終了後に観測する
  - Foresight等と同様、1バイトずつの漏洩攻撃になる
  - これもForesight同様、キャッシュラインプリフェッチャの誤爆の影響を阻止するため、**監視用配列の各スロットはページサイズ間隔で配置する**
  - スロット数は後述の理由から $256^2 \times 4096$

# (復習) FLUSH+RELOAD攻撃



- **FLUSH+RELOAD** : キャッシュラインをフラッシュ（クリア）し、攻撃対象に何らかの活動させた後、**再度アクセスする攻撃**
  - 再アクセス時にアクセス時間が短ければ、**そのキャッシュ値を攻撃対象が使用**したという事がわかる（データ自体の推測）



| 監視用配列<br>インデックス | アクセス時間<br>[ナノ秒] |
|-----------------|-----------------|
| 0x8a            | 1.52            |
| 0x8b            | 1.76            |
| <b>0x8c</b>     | <b>0.80</b>     |
| 0x8d            | 1.47            |
| 0x8e            | 1.63            |

監視用配列の全スロットにアクセスし、アクセスが速かったものはキャッシュにありfuncに使用された (=秘密バイトが**0x8c**) と分かる

# VM間秘密チャネル (3/7)



- 例に漏れずZombieLoadは**無関係な処理**に由来するノイズも**漏洩させる**ため、以下の図に示すような**32bitのパケット**を漏洩・転送させる事でそのようなノイズの排除を試みる



- 監視用配列は**1バイトずつの漏洩**のみを行えるため、**パケット全体**を命令リタイア後に観測する事は**出来ない**が、**過渡的領域でエラー検出**を行い、**有効なバイトデータ** (0x00yy) と**シーケンス番号** (0xFFzz) のみをキャッシュに残す事が出来る
  - その後、FLUSH+RELOADで観測する

# VM間秘密チャネル (4/7)



- 送信側は、前図の右から**1バイト目**には漏洩させるデータを、**2バイト目**には漏洩させるデータをビット反転させたものを格納する
- 受信側はこのパケットをZombieLoadで漏洩させ、**2バイト目**に対し**1バイト目**をXNOR演算してそのまま**2バイト目**を上書きする
  - 元データとビット反転したデータのXNORであるため、誤りがなければ**2バイト目**は必ず**0b00000000**となる

# VM間秘密チャネル (5/7)



- この2バイト目と1バイト目からなる**16bit**の値をインデックスとして  
以下のように**監視用配列**にアクセスする

```
uint8_t value = oracle[leaked_data * 0x1000];
```

- もし誤りが無い場合、前述の通り16bitの内**上位8bitがオールゼロ**になるため、上記の過渡的アクセスは必ず**監視用配列**の256スロットの**いずれか**にアクセスする
- 一方、誤りがあると**上位8bit**のいくつかのビットが**1になる**ため、`leaked_data * 0x1000`は言わば257スロット目以降の**境界外**へのアクセスを行う
  - 境界外は後続のFLUSH+RELOADでの探知を行わないため、結果的に**誤りが発生した場合は完全に無視される**形になる

# VM間秘密チャネル (6/7)



- 後は、受信側で**FLUSH+RELOAD**により監視用配列のキャッシュから目当ての**秘密バイトを観測**するだけである
- パケットの前図右から3バイト目にはバイトのシーケンス番号を格納しているため、これを参照する事で漏洩させたデータを順番に並べ替える事も出来る
  - この順番通りの並べかえは、AES鍵のように順序が重要なデータを漏洩する場合に有用である
- シーケンス番号はプレフィックスの0xFFと併せて0x**FF**yy、秘密バイトは誤りが無ければ0x**00**zzの形で監視用配列のインデックスとなるため、**観測時相互に識別可能**である
  - 誤りがある場合は0x00nnに対するFLUSH+RELOADでアクセス時間が全要素均一となる事で検知でき、その場合はシーケンス番号自体不要である

# VM間秘密チャネル (7/7)



- 論文では、Core i7-8650Uを搭載するローカルマシン上の**QEMU KVM**で動作する2つのVM間での転送と、あるパブリッククラウドの同一ベアメタル上のVM間での漏洩と転送を行う実験を実施している
  - どのパブリッククラウドであるかは当該クラウド事業者により口封じされているらしい
- 前者のシナリオでは、**TSXによる例外抑制**を用いながらの**ZombieLoad v1**を用いて**最大26.8kbps**の伝送レートを記録している
- クラウドのシナリオでは、そのクラウドでTSXを使用できなかったため、**TSX無しのZombieLoad v1**で**最大1.99kbps**の伝送レートを達成している

# **Load Value Injection (LVI)**

# Load Value Injection (1/4)



- Foreshadowは**Meltdown型**の攻撃であり、**μ-Archバッファ**である**L1D**から**過渡的実行**において**秘密情報を漏洩**させていた
  - その後、過渡的実行の結果が棄却されても後から観測できるように、キャッシュに痕跡を残しサイドチャネル攻撃で抽出する
- これに対し、**過渡的実行**において**Meltdown拳動**により**μ-Archバッファ**から**流れ出たデータ**を、その**過渡的命令**に対する**注入**に使う攻撃が**Load Value Injection (LVI)** である



# Load Value Injection (2/4)



- 名前の通り、**ロード命令**（あるいは**ロードマイクロ命令フォールト**または**マイクロコードアシスト**を発生させ、それに伴う**そのロード命令の過渡的実行**に対しμ-Archバッファから値を**Meltdown的に注入**（インジェクション）する攻撃
  - μ-Archバッファは予め攻撃に使う値で**汚染**（ポイズニング）しておく
  - フォールトとしてはページフォールト等が挙げられる
  - マイクロコードアシスト**：普通は滅多に発生しないような状況に遭遇した際に、マイクロコードがそれを対処する動作
- 広義にはPlundervolt同様**故障注入攻撃**の一種でもあり、実際にそのように振る舞う事も出来る

# Load Value Injection (3/4)



- 本来秘密情報の漏洩を行う Meltdown 挙動をロード命令への 値の注入に転用 しているため、逆 Meltdown 攻撃 とも、あるいは Meltdown を Spectre 的な注入に繋げるという意味で二者の 融合型 攻撃 とも表現する事が出来る

| Methodology        |        | Leakage                            | Injection            |
|--------------------|--------|------------------------------------|----------------------|
| $\mu$ -Arch        | Buffer |                                    |                      |
| Prediction history | PHT    | BranchScope [15], Bluethunder [24] | Spectre-PHT [38]     |
|                    | BTB    | SBPA [1], BranchShadow [40]        | Spectre-BTB [38]     |
|                    | RSB    | Hyper-Channel [8]                  | Spectre-RSB [39, 44] |
|                    | STL    | —                                  | Spectre-STL [23]     |
| Program data       | L1D    | Meltdown [42]                      | LVI-NULL             |
|                    | L1D    | Foreshadow [61]                    | LVI-L1D              |
|                    | FPU    | LazyFP [57]                        | LVI-FPU              |
|                    | SB     | Fallout [9]                        | LVI-SB               |
|                    | LFB/LP | ZombieLoad [53], RIDL [67]         | LVI-LFB/LP           |

LVIは、 $\mu$ -Archバッファからの値の注入という新しい攻撃を実現するものである（図は[8]より引用）

# Load Value Injection (4/4)



- μ-Archバッファを**秘密情報の存在するアドレス**で汚染し、過渡的実行でそのアドレスを注入し直接キャッシュに**秘密依存の痕跡を残す**LVI手法を**ユニバーサルリードガジェット法**と呼ぶ
- 一方、μ-Archバッファを攻撃者の選んだ**攻撃コードのアドレス**で汚染し、**ret等**における**フォールトロード**に伴う過渡的実行でそのアドレスを注入し**攻撃コードに誘導する**LVI手法を**制御フローリダイレクトガジェット法**と呼ぶ
  - 誘導後に攻撃コードで秘密情報を漏洩させるような処理を行う

# LVIに悪用できるμ-Archバッファ (1/3)



## ■ L1Dキャッシュ

Foreshadowで説明した通り。

## ■ ラインフィルバッファ (LFB)

L1Dに対して、他のキャッシュやメインメモリとのインターフェースとして機能するバッファ。

L1Dがキャッシュミスした場合、このLFBを介してより上位のキャッシュやメモリからデータが供給される[9]

## ■ ロードポート (LP)

メモリやI/Oからのロードを行うポート。

# LVIに悪用できるμ-Archバッファ (2/3)



## ■ストアバッファ (SB)

未処理のストアデータとアドレスを追跡（保持）するバッファ。  
準備・状況が整ったら、インオーダーで実際にストアを行う。

実際のストア処理の完了を待つ代わりにこのバッファに一時的に保持させておく事で、命令パイプライン自体やアウトオブオーダー実行の高速化を図る事が出来る。ストア操作による汚染が可能である。

## ■浮動小数点演算処理装置 (FPU)

その名の通り、浮動小数点演算を専門に行う、CPUに内蔵されているユニット。

# LVIに悪用できるμ-Archバッファ (3/3)



- CPU構造を示す図を再掲する ([13]より引用)



# LVIの攻撃力 (1/4)



- ・ 攻撃対象のドメイン内（例：ユーザ空間であるEnclave）で攻撃のほとんどが完結するという特徴がある
  - ・ よって、Foreshadow等と異なり、**攻撃対象のコードにおいてLVIを発生**させる前提であり、Foreshadowのように攻撃者が**自前のコードを用いて攻撃を発動**させる事は原則想定されていない
- ・ よって、コンテキストスイッチ（例：ユーザ→カーネルへの切り替え）時に**μ-Archバッファをフラッシュ**するような、**従来の Meltdown型攻撃**への対策はLVIには効かない

## LVIの攻撃力 (2/4)



- Spectre攻撃に対する対策としては、メモリ曖昧性解消機能(\*)の無効化 (Spectre-STLの場合) や、分岐予測器に汚染に対する耐性を付与するような対策が取られている

(\*)英語でmemory disambiguation. 詳細は省略

- しかし、LVIはMeltdown的な挙動によりμ-Archバッファから漏洩した値を後続の命令に対して直接注入するため、分岐予測関係を補強する上記のようなSpectre対策は根本的に無意味である

# LVIの攻撃力 (3/4)



- ・また、Spectreについてはコード内で過渡的実行攻撃が発生しそうな部分に**Ifence命令**を挿入する事で対策する方法も有名である
  - ・Ifence命令：この命令が挿入された場所より後の命令が、Ifence命令よりも先にアウトオブオーダー実行される事を防ぐための命令
- ・LVIでも後続の命令を過渡的に実行する事を抑止するために**Ifence**が**有効**であるが、挿入すべき**対象**があまりにも多く（例：ret命令）、全て対応しているとかなりのオーバーヘッドとなる
- ・しかも、性質上**軽減策**によるIfenceの導入が困難なロード命令も存在するため、**完全な対応**は**不可能**に近い

## LVIの攻撃力 (4/4)



- ・結局の所、ロード命令においてフォールトやアシストが発生した際に過渡的実行が発生しないようCPUのシリコンレベルで対策をしない限り、LVIの根絶は限りなく無理に等しい
- ・一方で、Meltdown拳動を発生させ、それにより注入された値を後続の過渡的命令に使わせるという極めて難易度の高い攻撃であり、攻撃の実用性は低いと言わざるを得ない
- ・このように、攻撃力というよりは攻撃可能範囲が極めて広いという点が、LVIの厄介な性質である

# LVIのPoC攻撃 (1/3)



- Foreshadowの時と同様、まずはLVIの概念実証的な攻撃コードについて説明を行う
- LVIは、主に以下の3フェーズにより構成される：
  - フェーズI (P1) : μ-Archバッファの汚染
  - フェーズII (P2) : ロードにおけるフォールト/アシストの誘発
  - フェーズIII (P3) : ガジェット (攻撃に利用可能なコード) ベースでの秘密情報の転送 (漏洩)

# LVIのPoC攻撃 (2/3)



- LVIの概要図は以下の通り（図は[8]より引用）



# LVIのPoC攻撃 (3/3)



- 攻撃対象マシンで動作する以下のコードに対してLVI攻撃を行い、  
秘密情報を抽出する事を考える：

```
void call_victim(size_t untrusted_arg) {  
    *arg_copy = untrusted_arg;  
    array[**trusted_ptr * 4096];  
}
```

# LVIのPoC攻撃 - P1ガジェット



- 2行目の`*arg_copy = untrusted_arg;`により、64ビット (=ポインタのサイズ) の**信頼不可能な値** (**攻撃に使用する値**) を**信頼可能なメモリ** (Enclave内のStack等) にコピーしている
- この動作により**メモリへのストアが発生**するため、ストアバッファを攻撃に使用する (=注入する) 値で**汚染**できる
- よって、この2行目のコードはμ-Archバッファを汚染するための**P1ガジェット**である事になる
  - `arg_copy`はコピーによるSBの汚染を発生させるためだけに使ったので、これ以降は登場しない

# LVIのPoC攻撃 - P2ガジェット (1/4)



- 3行目の`**trusted_ptr`は**二重ポインタ**であり、例えば（動的に確保した）構造体へのポインタ等が具体例として挙げられる

```
uint8_t *test_st = new uint8_t[sizeof(test_struct_t)]();  
uint8_t **trusted_ptr = &test_st;  
  
typedef struct {  
    uint8_t member_a;  
    uint8_t member_b;  
    uint8_t member_c;  
    uint8_t member_d;  
} test_struct_t;
```

参照  
`*trusted_ptr`

参照  
`**trusted_ptr`

# LVIのPoC攻撃 - P2ガジェット (2/4)



- 二重ポインタtrusted\_ptrについて、\*trusted\_ptrのように1段階の**参照先取得（デリファレンス）**を行うと、本来は構造体の先頭アドレスが手に入る



# LVIのPoC攻撃 - P2ガジェット (3/4)



- ここで、1段階のデリファレンスである`*trusted_ptr`においてフォールトまたはアシストを発生させる。すると、それに伴う投機的実行において、**SBから流れ込んできた値**がデリファレンスにおける参照先として後続の過渡的命令で**過渡的に使用**されてしまう



# LVIのPoC攻撃 - P2ガジェット (4/4)



- この1段階目のデリファレンスでフォールトまたはアシストを発生させて過渡的実行を誘発できるため、**このデリファレンスはP2ガジェット**であると見なす事が出来る
- フォールトまたはアシストを発生させるには、何度か登場している **mprotect**を用いたり、**ページテーブルエントリ（PTE）を直接改竄**する等の様々な手法が利用可能である
- ストアバッファからの値の注入を誘発しているので、このPoC攻撃は後述の**LVI-SB**というバリエントに属する事が分かる

# LVIのPoC攻撃 - P3ガジェット (1/2)



- 2段階目のデリファレンスは、注入された**untrusted\_args**をベースに実施されるため、**untrusted\_args**の場所に存在する**秘密情報をフェッチ**してしまう
  - ちなみに、過渡的実行が始まり、アーキテクチャの処理が追いついて棄却されるまでの**攻撃可能時間を過渡的実行ウィンドウ** (Transient Window) という



# LVIのPoC攻撃 - P3ガジェット (2/2)



- 攻撃対象コードの3行目において、**監視用配列array**に対して  
`array[**trusted_ptr * 4096];`のように**秘密バイト依存**の  
ページアクセスを行っている
- ここまで来れば**Foreshadow**の時と同様、過渡的実行が棄却された  
後に**キャッシュに痕跡が残る**ため、**FLUSH+RELOAD**  
**キャッシュ**サイドチャネル攻撃で**秘密バイトを抽出**できてしまう
- このPoC攻撃では、2段階目のデリファレンスから監視用配列への  
秘密依存のアクセスまでが**P3ガジェット**である

# LVIのバリアント



- ロード命令に対する注入をどこから行うかに応じて、LVIにはいくつかの**バリアント**（変種・種類）が存在する
- 本ゼミでは、原論文に倣い以下のLVIバリアントについて解説する：
  - **LVI-L1D**
  - **LVI-SB**
  - **LVI-NUL**

# LVI-L1D (1/2)



- その名の通り**L1D**から**値の注入**を行うLVIバリアント
- L1Dからの漏洩を注入に転用する事から、LVI-L1Dは  
**逆Foresight攻撃**であると捉える事も出来る
  - 恐らくこの世に存在するSGX攻撃の中でも頂点に君臨するレベルの複雑度
- Foresightに対する対策が適用されている環境では、LVI-L1Dによる攻撃を成立させる事は出来ない

# LVI-L1D (2/2)



- LVI-L1Dの概要図は以下の通り ([8]より引用) :



アセンブリはAT&T形式（[命令] <ソース> <宛先>）で書かれているので注意

# LVI-L1D – P1ガジェット (1/3)



- ページフォールトシーケンス手法やSGX-Stepを用いる事で、Enclaveの実行を**P1ガジェットの直前**まで正確に進める
- その後、**P2\_gadget**のretq命令がロードするスタックページのPTE内の**PPN (物理ページ番号)**を、**P3ガジェット**のアドレス値を格納する**ユーザ空間上のページ**（以下、**ページU**と呼ぶ）のものに改竄する（前図①）
  - アドレス値はuintptr\_tをイメージすると分かりやすい

# LVI-L1D – P1ガジェット (2/3)



- このPPNの改竄により、P2における`retq`の実行時に、Enclaveの**正常な範囲の外**へ飛ぼうとした事による、**EPCMページフォールト**と呼ばれる特殊な**ターミナルフォールト**が発生する



# LVI-L1D – P1ガジェット (3/3)



- その後、攻撃対象のEnclave内に存在する、例えば**out属性**の**OCALL引数** (=攻撃者の用意した値で、P3ガジェットのアドレス値) をコピーするような**P1ガジェット**により、ページU上の**攻撃用の値**を**L1Dにキャッシング**させる (概要図②)
- 前述の図においては、ページUの**保持する値** (=P3ガジェットの**アドレス値**) を%r12及び%r13レジスタにmovする事でL1Dへのキャッシングを行っている

# LVI-L1D – P2ガジェット (1/2)



- P2ではまず、P2の載っている**Enclave内関数**からの戻り値（前図のシナリオでは**これが秘密情報**である）をスタックから**%rax**にポップしている
  - 前図のP1・P2ガジェットは、別のEnclave内関数から呼び出されているEnclave内関数であるのが前提である
- P1でのPPN改竄の仕込みにより、**P2\_gadget**の**retq**が実行されると、**Enclave**の**仮想ページ**に対し**Enclave外**の**ページU**の**物理ページ**が割り当てられているため、**EPCMページフォールト**が発生する（前図③）
  - ここでEPCMページフォールトに伴う過渡的実行が発生する

## LVI-L1D – P2ガジェット (2/2)



- しかし、これに伴う**過渡的実行**においてページUのアドレスをベースにL1Dへの問い合わせが行われ、P1でページUはキャッシュ済みであるため、過渡的なretqのジャンプ先としてページUの値 (=P3ガジェットのアドレス) が使用されてしまう

# LVI-L1D – P3ガジェット (1/2)



- P2により同一Enclave内であればどこにでも過渡的に制御フローを転送できるため、Enclave内に存在する、**攻撃者の選択したP3ガジェット**に転送させる事が出来る
  - P3ガジェットの位置の指定は、ページUが保持する、P3ガジェットのアドレス値により行う
- 後はそのP3ガジェットを用いてキャッシュに痕跡を残し、過渡的実行リタイア後にキャッシュサイドチャネル攻撃で**秘密バイトを観測**出来てしまう

# LVI-L1D – P3ガジェット (2/2)



- 前図のP3ガジェット（④）では、**秘密バイトである戻り値をP2でポップして格納した%rax**を、%rdiに対するインデックスとして使用し、そのアクセスにより**秘密バイトの痕跡を残している**
- 元々%rdiには**P3ガジェットのアドレス値が格納されていた**が、P3フェーズに入ると%rdiに**何が入っていたかは関係ない**
  - 言わばここでは%rdiを**再利用しているだけ**であり、**監視用配列として使用**しているだけで元々何が入っていたかは既にこの時点で**無意味**である



- ・前述のLVIのPoC攻撃も属しているバリアントのLVI攻撃であり、**ストアバッファからの値の注入を悪用する攻撃**
- ・Fallout攻撃[10]の論文により、**SBに対するMeltdown拳動**を取る場合、**ロード命令におけるページオフセット**（対象アドレス下位12bit）が**最近の未処理のストア**のそれと**一致**しなければならない事が判明している



- 攻撃対象として、**Edger8r**が生成するエッジコードの以下の例を取り上げる：

```
; %rbx: user-controlled argument ptr (outside enclave)
sgx_my_sum_bridge:
...
    call my_sum ; compute 0x10(%rbx) + 0x8(%rbx)
    mov %rax,(%rbx) ; P1: store sum to user address
    xor %eax,%eax
    pop %rbx
    ret ; P2: load from trusted stack
```



- **Enclave外のポインタ**（例：配列の先頭ポインタ）を**引数**として受け取り、Enclave内でそのポインタ先が含む**2つの値を加算**して**引数経由でリターン**する**ECALL関数**についての**エッジコード**である
- 加算結果をストアバッファに格納させ、8行目のret命令で**過渡的実行を発動**させる事で、**SBからの注入**によりリターン先として攻撃者の選択する**P3ガジェットに飛ぶ**ように仕向ける攻撃を考える



- 3行目の「...」部では、結果の返却にも用いる**引数ポインタ** (`[in, out]`属性をイメージすると分かりやすい) が**Enclave外に存在**しているかを確認しているだけである
  - よって、**攻撃者が用意した引数の値がEdger8rによって阻害される事はない**
- 結果として、攻撃者はこの引数の**加算値** (=P2でret先として過渡的にSBから注入されるアドレス値になる) をEnclave外で**任意に設定（改竄）**し、前述のページオフセット一致の制約を容易に満たす事が出来る
- この性質を利用し、攻撃が上手く行くように引数を渡し、`my_sum` 関数での加算結果をSBに格納させればP1は完了



- 4行目のcall my\_sumの後に**Enclaveを中断し、8行目のretで参照する事になるEnclave**スタックのページでの**フォールトやアシストを誘発**する
  - 論文中では、ここではこのスタックページに対応するPTEのAccessedビットかスーパーバイザビットをクリアする事でこれを実現すると述べている
  - ただし、今まで通りPresentビットをクリアするのでは不可能であるとは書かれておらず、このケースに限ってPresentビットクリアが通用しない理由も無さそうであるため、Presentビットによる誘発も可能そうである
- 8行目で**実際にret命令が呼ばれると、フォールトまたはアシストが発生**し、過渡的実行でSBから**引数同士の加算値 (=P3ガジェットの位置)**を指すように先程している) が**注入**される

# LVI-SB - P3ガジェット



- あとはLVI-L1Dの時と同様、**任意のP3ガジェットに制御フローをリダイレクト**出来ているため、それを用いて**秘密情報の漏洩**を行える
- 制御フロー リダイレクトに限らず、ユニバーサルリードガジェット法的にLVI-SB攻撃を行う事も勿論可能である



- Meltdownへの対策を行っている直近の世代のCPUでは、過渡的実行で **Meltdown**的に漏洩する値を **ダミーの0x00**に強制的に置き換える事で、秘密情報が漏洩する事を防ぐよう正在している
  - MSRのIA32\_ARCH\_CAPABILITIESアドレスのRDCL\_NOビットが1であればMeltdown対策済みである
  - RDCLは **Rogue Data Cache Load** の略で、 **Meltdown** の正式名称。NOは文字通り否定のnoの意
- しかし、**過渡的実行に0が注入される**という挙動 자체を悪用するLVI攻撃も実行可能であり、これが **LVI-NULL** である



- OSや環境にもよるが、**root権限を持つ攻撃者は仮想アドレスNull (=アドレス0) に任意のメモリページをマッピングする事が出来る**
  - 手っ取り早い方法として、PTE内に登録されている**仮想アドレスを0にしてしまえば良い**
- よって、**Meltdown対策済みCPU**による、**過渡的実行**における**0値の転送**（注入）を悪用し、**仮想アドレス0に用意**した不正なポインタを通じて、**P3ガジェット**に制御を転送する攻撃を例として考える

# LVI-NULL (3/7)



- ここでLVI-NULL攻撃の概要図は以下の通り ([8]より引用) :





- このシナリオでは、**関数の二重ポインタ** (`**ptr`のようにデリファレンスする事で関数にアクセスできるようなポインタ) において**LVIを行う事を考える**
  - 関数の二重ポインタの具体的な実例として、動的に確保した構造体のようなヒープオブジェクトに含まれる関数ポインタが挙げられる
- 二重ポインタに対して攻撃するという意味では、**LVIのPoC攻撃**の説明で示した**LVI-SB**のケースと若干似ている



- この関数の二重ポインタの**第一段階のデリファレンス**でフォールトやアシストを誘発する事で、**過渡的実行を発生させる**
- この時、Meltdown耐性のあるCPUは過渡的実行に**ダミー値0**を転送し、結果的に**過渡的な第一段階のデリファレンス**で**アドレス0**を使用してしまう
- 結果として、**第2段階のデリファレンス**では**攻撃者が用意したアドレス0**をベースアドレスとした場所にある**不正な関数ポインタ**を**過渡的に取得**してしまい、それにより**P3ガジェットに制御転送**されてしまう

# LVI-NULL (6/7)



- このLVI-NULLの実行の様子を示した図は以下の通り：





- ここで**1段階のみの関数ポインタ**を用いると、**過渡的な関数呼び出し**が上手く行かないらしい
  - 詳細は不明だが、一度過渡的にEnclave外ページをデリファレンスしてからその上のEnclave外関数を呼ぶ事は出来るが、直接Enclave外関数を呼ぶのは過渡的実行上でも不可能であると推測できる
  - デリファレンス先ページを実行不可能とマークする等して時間を稼ぎ、その間にアドレス0に再配置可能なEnclaveイメージをロードすれば1段階のみの関数ポインタでも攻撃が成立する可能性はある
- LVI-NULLの場合、他のバリアントと比べても**過渡的実行ウィンドウ**が**小さい**ため、実際に**有効な攻撃を成功裏に行うのは極めて難しい**とIntelは主張している[11]

# LVI攻撃例 - AES-NIへの攻撃 (1/8)



- LVIを利用したより実践的な攻撃として、**AES-NIを利用する**ようなEnclaveに対し**LVI-NULL**攻撃を仕掛ける事で、**共通鍵を抽出**するような**故障注入攻撃**を行うケースを考える
  - **AES-NI** : AES暗号の暗号化及び復号の高速化を目的に実装されている、x86の拡張命令
- **既知暗号文攻撃**（暗号文のみを知った状態で秘密を解読する攻撃）のシナリオを前提とし、正しい暗号文を復号する処理に対して故障注入攻撃を行う事を考える
- 前述のLVI-NULLの例が**制御フローの改竄**を行っていたのに対し、この例はある意味**Plundervolt**に近い故障注入攻撃を行う点でかなり毛色が異なる

# LVI攻撃例 - AES-NIへの攻撃 (2/8)



- AES暗号では、暗号文を**128bit** (16バイト) の**ブロック**という単位に**分割**し、さらに各ブロックを**1マス8bit** (1バイト) とした**4×4の行列**にする
- そして、この**4×4行列**に対し、ある**一連の処理**をAESの仕様で定められている**ラウンド数**分だけ繰り返す (**鍵伸長処理**)
  - 鍵長が**128bit**である場合はこのラウンド数は**10**である

# LVI攻撃例 - AES-NIへの攻撃 (3/8)



- 一連の処理とは、暗号化の場合は順に以下の通り：
  - **SubBytes** : S-Boxという置換表を参照するByte単位の置換
  - **ShiftRows** :  $4 \times 4$ 行列のn行目を $(n-1)$ マスだけ左側にずらす。左端を超えるようなマスは右端に行くようにする（回転）
  - **MixColumns** : 列単位の処理。数式が長いので省くが、XORをベースとした演算（CBCにおけるXOR処理とは別物）
  - **AddRoundKey** : state (処理中の $4 \times 4$ 行列。上記の処理を適用した状態の途中段階の行列) と**ラウンド鍵**で、列ごとにXORを取る
- 最終ラウンドのみ、MixColumnsは実行されない

# LVI攻撃例 - AES-NIへの攻撃 (4/8)



- 復号の場合は以下の通り：
  - **InvShiftRows** : 暗号化時のShiftRowsの右回転バージョン
  - **InvSubBytes** : Inverse S-Boxを参照した、 SubBytesの逆置換
  - **AddRoundKey** : 暗号化時と同様
  - **InvMixColumns** : これも列単位の処理で、 数式が複雑なので詳細は割愛
- 最終ラウンドのみ、 InvMixColumnsは実行されない

# LVI攻撃例 - AES-NIへの攻撃 (5/8)



- ここで、ラウンド鍵はAESの共通鍵からラウンド分だけそれぞれ導出されるもので、以下のようにして導出される  
(図は[12]より引用)

AES-128



round0     $\begin{cases} W_0 = K_0 \\ W_1 = K_1 \\ W_2 = K_2 \\ W_3 = K_3 \end{cases}$

round1     $\begin{cases} W_4 = W_3' \text{ XOR } W_0 \\ W_5 = W_4 \text{ XOR } W_1 \\ W_6 = W_5 \text{ XOR } W_2 \\ W_7 = W_6 \text{ XOR } W_3 \end{cases}$

...

round10     $\begin{cases} W_{40} = W_{39}' \text{ XOR } W_{36} \\ W_{41} = W_{40} \text{ XOR } W_{37} \\ W_{42} = W_{41} \text{ XOR } W_{38} \\ W_{43} = W_{42} \text{ XOR } W_{39} \end{cases}$

# LVI攻撃例 - AES-NIへの攻撃 (6/8)



- AES-NIを利用するEnclaveに対するLVI-NULL攻撃の概要図は以下の通り（図は[8]より引用）：



# LVI攻撃例 - AES-NIへの攻撃 (7/8)



- まず、SGX-Stepを使用して最初（第0）のラウンドを実行した後に攻撃対象のEnclaveに正確に割り込む
- その後、ラウンド鍵が格納されたメモリページのアクセス権を剥奪してからEnclaveを再開する
- 続くラウンド処理でラウンド鍵へのアクセスによりフォールトが発生するため、最初以外のラウンドではMeltdown対策挙動によりオールゼロのラウンド鍵が過渡的に使用 (**LVI-NULL**) されてしまう

# LVI攻撃例 - AES-NIへの攻撃 (8/8)



- 第0ラウンド鍵以外のラウンド鍵として全ラウンドにてオールゼロの故障した鍵で復号された、**故障した平文**をキャッシュに残す
- 「暗号文⊕第0ラウンド鍵⊕オールゼロ鍵=故障した平文」であるため、XORの性質より、「故障した平文⊕オールゼロ鍵=暗号文⊕第0ラウンド鍵」となる
  - 暗号文は既知であるため、これにより**第0ラウンド鍵が抽出**できる
- 第0ラウンド鍵は前図の通り**共通鍵そのもの**であるため、これにより**目当ての共通鍵を抽出**できてしまう
  - 実際には単純なXORだけでなくAES特有の処理が挟まるため、AESの逆処理を行う関数を用意して共通鍵の抽出を行う

# まとめ



- SGX攻撃の中でも最先端の一角を担っている、Foreshadow、LVI、 $\text{\textcircled{E}}$ PIC Leakの3つの攻撃についてある程度詳細に解説した
- これらの攻撃を実践するのは非常に難易度が高いため、その実践は完全にSGXを極めるのであればおすすめする

# Downfall

# コンテキストスイッチ



- ・コンテキストスイッチ：CPUが**処理する対象を変更する動作**
  - ・プロセス間の切り替え、SGXのEnclave内外での切り替え、ユーザモードからOSのカーネルモードへの切り替え
- ・コンテキストスイッチが発生した場合、**仮想アドレス空間とCPUレジスタの状態**（コンテキスト）の**切り替え**が発生する
  - ・よって、例えば切替後のプロセスが切替前のプロセスのメモリやレジスタにアクセスする事はできない

# SIMDとベクトルレジスタ (1/3)



- **SIMD** : Single Instruction Multiple Dataの略。同じ操作を異なるデータで並列に実行するような処理
  - 例：8個のデータを、単一のSIMD命令で並列で一気にビット反転する
- SIMDには、現在主流であるアーキテクチャのビット数である64bitよりも大きい、専用に用意されている**ベクトルレジスタ**（ワイドレジスタ）を用いる
- Intel SSE対応のCPUであれば128bit、AVXやAVX2対応であれば**256bit**、AVX512対応であれば**512bit**のベクトルレジスタが用意されている

# SIMDとベクトルレジスタ (2/3)



- 64ビットレジスタにおけるraxのように、ベクトルレジスタにもレジスタ名が付与されている
- 128bitレジスタは $xmm_n$ 、256bitレジスタは $ymm_n$ 、512bitレジスタは $zmm_n$ という命名規則になっている
  - 各末尾の $n$ はレジスタのインデックス番号（例： $xmm0$ ）

# SIMDとベクトルレジスタ (3/3)



- 同じインデックス番号の異なるサイズのベクトルレジスタがある場合、より**大きい**レジスタはより**小さい**レジスタを内包する構成となっている
  - 例：zmm0はymm0とxmm0を含み、ymm0はxmm0を含む
  - 通常のレジスタにおけるraxとeaxのような関係と同様



# Gather命令 (1/4)



- 主にメモリの各所に分散して存在している非連續なデータを効率的に収集しロードする命令
  - **%rsi** : ベースアドレス
  - **%xmm2** : 収集してロードするデータの位置を指定する、ベースアドレスに対するインデックスを格納するインデックス配列
  - **%xmm1** : マスクレジスタ。ここで0であるようなビット位置のデータは、インデックス配列に格納されていても収集を行わず無視する  
(例：マスクレジスタの2bit目が0なら、インデックス配列の2要素目に対応するデータの収集は行わない)
  - **%xmm3** : 収集結果を格納するベクトルレジスタ

```
vpgatherdd = %xmm1, 0(%rsi, %xmm2, 2), %xmm3
```

## Gather命令 (2/4)



- 前ページの例では、32bitの値 (**dword**) 4つを収集して**128bitのベクトルレジスタ**である**xmm3レジスタ**に格納する
- 収集するデータの位置は、**(%rsi + %xmm2[i] \* 2)**という形で決定される
  - 収集対象が4個であるため、 $0 \leq i < 4$ である
- また、インデックス配列の内特定要素に対応する場所のデータは収集不要である等の場合は、対応するマスク配列の要素を**0**にする事で**収集対象から除外**する事ができる

# Gather命令 (3/4)



- このGather命令でメモリの各所に散らばったデータを効率的に収集してベクトルレジスタにロードした上で、他のSIMD命令を実行すると効率的にSIMD処理を行う事ができる
- AVX-512の場合、マスク配列専用のマスクレジスタknが用意されており、以下のようにGather命令を記述する事ができる
  - rsiがベースアドレス、zmm2がインデックス配列、k1がマスクレジスタ、zmm3が格納先ワイドレジスタ

```
vpgatherdd 0(%rsi, %zmm2, 1), %zmm3{%k1} // AVX-512
```

# Gather命令 (4/4)



- Gather命令による動作の様子を図示すると以下のようになる  
(図は[14]より引用)



# マイクロアーキテクチャ ( $\mu$ -Arch)



- $\mu$ -Arch : 命令セットアーキテクチャよりもローレベルな、CPUの内部構造やデータフローを定義する設計レベルの事
  - 有名所としては**キャッシュメモリ**も $\mu$ -Archに含まれる
  - その他、**直近の分岐履歴**等を記録する**LBR** (Last Branch Record) や、アウトオブオーダー実行等で未処理のストア命令を記録しておくストアバッファ等が存在する
- $\mu$ -Archに対する攻撃は、**過渡的実行攻撃** (Transient Execution Attacks) のアウトブレイクが発生した2018年以降急激に増えている

# Gatherのμ-Archによる最適化



- CPUは、以下のようなマイクロアーキテクチャによる最適化により Gather命令の実行を高速化している：

- 0であるマスクビットに対応するメモリ位置からは、そもそもロード処理自体行わずに処理から排除する。
- 同一キャッシュラインから複数の値を収集する場合、**そのキャッシュラインを保持**しておく。
- 複数の読み出しを**並列かつ投機的に実行**し、少なくとも1つの読み出しに失敗したら**結果を破棄**する。
- Gather処理中に割り込みが入った場合に途中から再開できるよう、既に実行された**部分的な読み取り結果を保持**しておく。

# Gather命令の最適化から見えるデジャヴ



- 複数回読み出し時の**キャッシュライン保持**や、割り込み発生時の再開のための**部分結果保持**には、**CPUパッケージ内の何らかのバッファを使用**しているのでは？
  - Foreshadow (L1D)、ZombieLoad (LFB)、Fallout (SB)、LVI (L1D、LFB、SB、LP、FPU) のような漏洩が発生するのでは？
- **投機的に実行**して駄目ならアーキテクチャ状態 (CPUやメモリの実際の状態)への反映時 (**命令リタイア時**)に**破棄**、という挙動は、**過渡的領域**において**何かしらの脆弱性**を抱えているのでは？
  - 過渡的実行中にキャッシュ等に秘密情報に依存する値の痕跡を残す攻撃はもはや恒例である

# Downfall (1/2)



- お察しの通り、**Gather**命令に伴いベクトルレジスタ内の古い値が過渡的に漏洩する「**Gather Data Sampling (GDS)**」が発見された
- さらに、ForeshadowやMDSからのLVIへの接続の類推から、**GDS**による漏洩値を後続の過渡的命令への注入に転用する「**Gather Value Injection (GVI)**」の実現にも成功している
- これらのGDSやGVIを悪用した攻撃を**Downfall**と呼んでいる[14]



# Downfall (2/2)



- Gatherに伴い漏洩するデータの漏洩元は、論文では「一時バッファ」「内部バッファ」「SIMDレジスタバッファ」と表現しており、いまいち**実体が釈然としない**
- Intel公式による解説によると、前述の通り**ベクトルレジスタ**が**漏洩元**であると言及している
- 論文執筆中には**実体が知れなかつた**が、エンバーゴ（情報開示禁止期間）中にIntelが突き止めて判明した可能性などが憶測できる
  - ちなみに、Downfallのメインページではベクトルレジスタであると明示的に言及している

# GDSのPoC実装 (1/7)



- 以下のコードは、GDSを実行するためのPoCコードである

```
// Step (i): Increase the transient window
lea addresses_normal, %rdi
clflush (%rdi)
mov (%rdi), %rax

// Step (ii): Gather uncacheable memory
lea addresses_uncacheable, %rsi
mov $0b1, %rdi
kmovq %rdi, %k1
vpxord %zmm1, %zmm1, %zmm1
vpgatherdd 0(%rsi, %zmm1, 1), %zmm5{ %k1 }

// Step (iii): Encode (transient) data to cache
movq %xmm5, %rax
encode_eax

// Step (iv): Scan the cache
scan_flush_reload
```

# GDSのPoC実装 (2/7)



- GDSの概要を示した図は以下の通り：





## ■ステップ(i)

キャッシュクリアを行う事で**キャッシュミスを誘発**する。  
キャッシュミスはCPU的には遅延以外の何物でもないため、  
**投機的実行（過渡的実行）**のウインドウ（実行時間）を増幅させ、  
過渡的に転送された値をキャッシュに残す時間的猶予が増える。

## ■ステップ(ii)

まず、このステップの最初の行で対象メモアドレスを**キャッシュ不可** (Uncacheable) としている。かつ、ステップ(i)でキャッシュをクリアしているため、**Gather命令**においてキャッシュミスが発生する。これにより、動作は中断されないが、裏で**過渡的実行が発動**する（キャッシュミスは遅いため、CPU的には投機的に解決したい）



## ■ステップ(iii)

Gatherの過渡的実行により、(恐らくzmm5) ベクトルレジスタ内に**残留している古いdword** (4バイト値) が**後続の命令に過渡的に転送**される (ここでは单一dwordのみ漏洩するものとする)。

過渡的に漏洩したdwordの**各バイトをインデックス**として、 $4 \times 256$ の**監視用配列**に過渡的にアクセスし痕跡を残す。

例：dword値が0x8c34c592である場合、監視用配列をA[4][256]とすると

A[3][0x8c], A[2][0x34], A[1][0xc5], A[0][0x92]

のように過渡的にアクセスする。



## ■ステップ(iv)

過渡的実行の終了、つまり命令リタイア後、**FLUSH+RELOAD攻撃**により過渡的に漏洩した値を監視用配列経由で観測する。

前述の例の場合、ステップ(i)でキャッシュクリア済み (**FLUSH**) であり、かつA[3][**0x8c**], A[2][**0x34**], A[1][**0xc5**], A[0][**0x92**]にのみ過渡的にアクセスしキャッシュが残っているため、これらの要素へのアクセス時間だけ他に比べて高速である。

よって、アクセスが高速であったような要素のインデックス経由で、**漏洩したdword値を復元**する事ができる (**RELOAD**)。

# GDSのPoC実装 (6/7)



- もしベクトルレジスタ内に残留していた**古いdword**が、本来**攻撃者**のアクセスできない**秘密情報**であった場合、この時点で**秘密情報の漏洩が発生した**事になる
- ForesightやZombieLoad同様、キャッシュラインプリフェッチャの誤動作により監視用配列のキャッシュが汚染される事を防ぐため、監視用配列の各バイト監視用の要素（スロット）は最小で128B、最大で4096B（1物理ページ分）間隔を空ける必要がある

# GDSのPoC実装 (7/7)



- ・このPoC実装のGDSをTiger Lake CPU上で実行した所、**並行するハイパースレッド（シブリングスレッド）**から**1秒間に809個のdword値を漏洩させる事ができた**
- ・また、前述の**ステップ(i)～(iii)を繰り返す**事で、dwordが完全な形でキヤツシュに残る**確度を高める**事ができる
- ・実際に(i)～(iii)を32回実行してから(iv)を実行した所、**1秒間に903個のdwordを漏洩させられた**

# GDSのトリガー方法 (1/4)



- GDSは、前述の通り**キャッシュ不可メモリ**へのアクセスや、あるいは**Write Combiningメモリ**へのアクセスでも発生する
  - **Write Combining**：書き込みを後でまとめて行うようなメモリモード。このメモリモードである場合もキャッシュが迂回される
- また、Gatherに伴う**あらゆるフォールト**によっても**GDS**が**誘発される**事が確認できている
  - カーネルやメモリ保護キーへの無効なアクセスに伴う**パーミッションフォールト**
  - マッピングされていないメモリアクセスによる**ページフォールト**
  - 非正規アドレスへのアクセスに伴う**アドレス生成フォールト**

# GDSのトリガー方法 (2/4)



- ・また、PTEの**Accessed**ビットが0であるページにアクセスした際にも、GDSによってかなり**転送レートの低めな漏洩が確認された**
  - ・ZombieLoadからの類推からすると、このようなアクセスに伴う**マイクロコードアシスト**が原因そうだが、トリガーとして確定はできていない
- ・[transient.fail](#)にて整理されている**過渡的実行攻撃の分類**で言うと、Meltdown-US、Meltdown-MPK、Meltdown-NC、Meltdown-P、Meltdown-UC、Meltdown-AをGDSは悪用している
  - ・順にMeltdown本家（カーネルアクセス違反）、メモリ保護キー違反、非正規アドレス違反、ページフォールト、キャッシュ不可、アラインメントされていないメモリオペランドを悪用するものである
- ・Downfall発見時点でIntelによりTSXが無効化されているため、Meltdown-TAAは当てはまらない

# GDSのトリガー方法 (3/4)



- 以下のコード例のように、**フォールトやアシストを誘発するような異常な (Exotic) アドレス**に一切アクセスせずに、**過渡的実行を誘発してGDSを発動させる方法**も存在する

```
// Step 1: Increase the transient window a lot
lea addresses_normal_helper, %rdi
.set i, 0
.rept 8
clflush 64*i(%rdi)
mov 64*i(%rdi), %rax
.set i, i+1
.endr
xchg %rax, 0(%rdi)
```

```
// Step 2: Gather cachable memory (no fault)
lea addresses_normal, %rsi
...
```

※論文より引用している。恐らくこの後ろにGather命令本体が来るはずである

# GDSのトリガー方法 (4/4)



- 前ページの例では、キャッシュクリアによりキャッシュミスを誘発させた上で、**アトミックなLMS** (Load-Modify-Store) 命令である**xchg命令**を実行している
- アトミックなLMS命令では、対象を**排他的にロック**した上でロード・変更・ストアの一連の処理を行うものであるため、CPUからすると**非常に時間的コストの高価な処理**である
- その上キャッシュミスによりさらなる遅延を仕組まれているため、これらの**遅延を軽減**しようとCPUが画策して**過渡的実行**が発動し、結果として**GDSが発生**してしまう

# マスクビットが0である場合の挙動



- GDSを発生させるGatherにおいて、あるインデックスに対応するマスクビットが0である場合、そのインデックスに対応するベクトルレジスタからは、**GDSにより漏洩させる事はできなかった**
- フォールトによりGDSが誘発される場合でも、そのような**異常**(Exotic) アドレスにアクセスしない場合でも**同様**
- これは、**前述のマイクロアーキテクチャ最適化**により、マスクビットが0であるようなデータはそもそも読み出さないようにされるからであると考えられる
  - **GDSを引き起こすGather側のマスクビット**の話である点に注意。**攻撃対象**とするベクトル命令におけるマスクビットについては**また別**である

# GDSの影響を受ける命令 (1/5)



- ・ベクトルレジスタに読み出したり、あるいは一時的なバッファとしてベクトルレジスタを使用する命令で使用される値が、原理的に**GDSによって漏洩**させられてしまう事になる
- ・手法の詳細は省略するが、自動的あるいは手動でテストを行う事により、実際に**GDS**により**使用した値が漏洩**してしまうような命令を洗い出して**一覧化**している
  - ・攻撃者の実行するGatherによって使用した値が漏洩するような、**攻撃対象となる命令の一覧**である
  - ・別の攻撃対象命令から**漏洩させるために使用できる命令の一覧でない**点に注意

# GDSの影響を受ける命令 (2/5)



- GDSによる影響を受ける命令は以下の通り：

| Instruction buckets: | (v)(vp)(p)blend*{19}  | (v)(vp)(p)cmp*{217} |
|----------------------|-----------------------|---------------------|
| (v)(vu)(u)comi*{8}   | (v)insert*{12}        | (v)(vp)(p)align*{4} |
| (v)(vp)maskmov*{4}   | (v)(vp)(p)mov*{47}    | (v)perm*{22}        |
| (v)(vp)compress*{4}  | (v)(vp)gather*{8}     | (v)(vp)max*{12}     |
| (v)scale*{4}         | (v)(vp)(p)shuf*{17}   | (v)rsqrt*{7}        |
| (v)sqrt*{6}          | (v)fixup*{4}          | (v)fpclass*{10}     |
| (v)getmant*{4}       | (v)(vp)xor*{5}        | (v)(vp)or*{5}       |
| (vp)rol*{4}          | (v)pack*{4}           | (vp)(p)srl*{10}     |
| (v)(vp)andn*{5}      | (v)(vp)and*{5}        | (v)getexp*{4}       |
| (vp)lzcnt*{2}        | (v)lddqu*{1}          | (vp)dpwssd*{2}      |
| (v)dbpsadbw*{1}      | (vp)sadbw*{1}         | (v)rndscale*{4}     |
| sha*{6}              | (vp)madd*{4}          | (vp)ror*{4}         |
| (v)cvt*{74}          | (v)dpp*{4}            | (v)gf2p8*{6}        |
| (v)(vp)(p)hadd*{10}  | (vp)(p)abs*{7}        | (vp)(p)clmul*{7}    |
| (v)phmin*{2}         | (v)(vp)min*{12}       | (v)popcnt*{4}       |
| (v)div*{4}           | (v)(vp)broadcast*{17} | (v)fm*{36}          |
| (v)(vp)(p)test*{12}  | (vp)multishift*{1}    | (v)(vp)(p)mul*{13}  |
| (v)rcp*{7}           | (v)round*{8}          | (v)reduce*{4}       |
| (v)range*{4}         | (v)(vp)expand*{6}     | (vp)ternlog*{2}     |
| (v)addsub*{2}        | (v)(vp)add*{12}       | (v)(vp)sub*{12}     |
| (vp)conflict*{2}     | (vp)(p)sll*{9}        | (vp)(p)sra*{8}      |
| (vp)dpbus*{2}        | rep(ne) mov*{8}       | xsave/xrstor*{2}    |
| fxsave/fxrstor*{3}   | (v)(vp)(p)hsub*{10}   | (vp)sign*{3}        |
| (v)(vp)unpck*{12}    | (v)fnm*{24}           | (vp)(p)ins*{6}      |
| (vp)shl*{6}          | (vp)2intersect*{2}    | (v)mpsad*{2}        |
| (vp)shr*{6}          | (vp)avg*{2}           | (v)aes*{12}         |

※{n}は影響を受けるそのカテゴリの命令の合計数、(v)(vp)(p)はベクトル命令の接頭辞、  
\*部分は取り扱うデータの型によるバリエーション（接尾辞）

# GDSの影響を受ける命令 (3/5)



## ■ SIMD読み出し

メモリからワイドデータ（128/256/512bitのデータ）を読み出す  
全てのSIMD演算がGDSの影響を受ける。

例：読み出しのみを行うvmov\*命令、読み出しとXOR演算を実行するvpxor\*命令

## ■ SIMD書き込み

compress命令のみが影響を受ける。

## ■ 暗号学的拡張命令

AES-NIやSHA-NIのような暗号学的拡張命令が、値のロード等で  
**内部的にベクトルレジスタを使用**するため、これらの拡張機能を  
用いたAESやHMAC-SHAから平文データや秘密鍵が漏洩する。

# GDSの影響を受ける命令 (4/5)



## ■高速メモリコピー

memcpyやmemmoveにおける高速なメモリコピーのために用いられている、rep命令とmovs\*命令の組み合わせが、内部でベクトルレジスタを用いているために影響を受ける。

(rep命令はmovs系命令をループさせる命令)

## ■レジスタコンテキストのリストア

コンテキストスイッチに伴うレジスタコンテキストのストアやリストア時にもベクトルレジスタが使われるため、GDSの影響を受ける。

具体的には、**xsave**や**xrstor**で扱われる標準のレジスタと、**fxsave**や**fxrstor**で扱われるワイドレジスタ双方が対象となり、**後者はSGXのAEXやERESUMEで使用**されている。

# GDSの影響を受ける命令 (5/5)



## ■ ダイレクトストア

ある**64バイト**の値を、コピー元アドレスからコピー先アドレスに直接コピーする**ダイレクトストア操作**も内部でベクトルレジスタを使用しており、GDSの影響を受ける。

ちなみに、ダイレクトストアはキャッシュを迂回して行われる[17]。

## ■ 誤検出のケース

movのような標準的なメモリ読み出しからの漏洩も確認されたが、これは裏で**定期的にOSのタイマ割り込み等で実行されるxrstor命令によるもの**であると判明した。

これは、ForeshadowやZombieLoadのように**ゼロステップ処理**でSGXから**xrstorを狙って漏洩させられる**というヒントとなっている。

# エントリサイズからの考察



- ・前述の通り、論文執筆時点ではSIMDレジスタバッファが何物なのか判然としていなかった可能性が推測される
- ・論文中では、**AVX-512対応**であれば**512ビット**（64バイト）の**zmmレジスタ**へのロードデータの**任意の部分を漏洩**でき、**非対応**であれば**最大32バイト**しか漏洩できない事を確認している
- ・この事からも、ベクトルレジスタが漏洩元である事を当時であってもある程度推測できる
  - ・ただし、仮に別の不明な内部バッファが存在し、AVX-512への対応時のみ大きくなっている可能性も、この推測だけでは拭いきれない

# 漏洩元の推測 (1/4)



- ここで、**Foresadow**や**MDS**で漏洩元となっていた**L1Dキャッシュ**や**マイクロアーキテクチャバッファ**が**GDSの漏洩元ではない**事を確定させておく必要がある
- そこで、**VERW命令**により**マイクロアーキテクチャバッファ**を**フラッシュ**し、**MSR**（モデル固有レジスタ）経由で**L1Dキャッシュ**を**フラッシュ**してみる
  - VERW命令は本来全く関係ないあまり使われない命令であったが、MDSの発見以降μ-Archバッファをフラッシュする副次的機能を付与されている

## 漏洩元の推測 (2/4)



- 結果、フラッシュの有無に関わらず漏洩したため、GDSは既存の攻撃におけるμ-Archバッファとは無関係であると結論付ける事ができる
  - フラッシュ後の方が漏洩レートが高くなっているものについては、副次的な要因で過渡的実行ウィンドウが拡大されたためであると推測される



図は[14]より引用

# 漏洩元の推測 (3/4)



- 既存のMDSやMMIO Stale Data脆弱性を抱えていないTiger Lake CPUでVERW命令を行うと、μ-Archバッファをフラッシュする必要がないため、以下のようにVERWのサイクル数が小さくなる

| CPU Generation | GDS |        | MDS |        |      |       | VERW<br>Cycles |
|----------------|-----|--------|-----|--------|------|-------|----------------|
|                | SMT | Switch | SMT | Switch | >TAA | >MMIO |                |
| Tiger Lake     | ☒   | ☒      | θ   | θ      | θ    | θ     | 80             |
| Ice Lake       | ☒   | ☒      | θ   | θ      | θ    | △     | 592            |
| Cascade Lake   | ☒   | ☒      | θ   | θ      | ✗    | △     | 324            |
| Kaby Lake      | ☒   | ☒      | ☒   | △      | ✗    | △     | 696            |

☒ Vulnerable   θ Not affected   ✗ TSX disabled   △ Buffer flush

図は[1]より引用

# 漏洩元の推測 (4/4)



- ・その状態でも、**SIMDメモリアクセス**のみがGDSの影響を受けている事から、既存の攻撃で悪用されたμ-Archバッファとは別の、**SIMD演算に関連するバッファ**から漏洩していると推測される
  - ・論文中では「**SIMDレジスタバッファ**」という（不明な）バッファであると言及している
- ・実際、前述の通りエンバーゴ期間を経た後に、Intel及びDownfallのトップページ[15]でそれが**ベクトルレジスタであった**事が開示されている
  - ・この推測の仕方からしても、論文執筆時点ではその実体が不明瞭であった事が窺える

# Downfall攻撃の実践例

# Downfall攻撃の実践例



- ここまでで説明したGDSを応用した、以下の4つの攻撃について順に説明を進める
  - プロセス間秘密チャネル
  - 任意のデータの盗聴
  - Gather Value Injection
  - SGXへの攻撃

# プロセス間秘密チャネル

# プロセス間秘密チャネル (1/9)



- **秘密チャネル**：本来データ転送のために用意されているものではない要素を用いて構築された、秘密裏にデータ転送を行う通信路
  - 英名：Covert Channel
  - 過渡的実行政撃でのキャッシュサイドチャネル攻撃におけるキャッシュも、まさに過渡的領域から命令リタイア後への**秘密チャネル**である
- 攻撃対象プロセスで使用された値を攻撃側プロセスからGDSで盗聴する、プロセス間秘密チャネル攻撃について考える

# プロセス間秘密チャネル (2/9)



- ・過渡的実行攻撃においては、**秘密チャネル**として主に前述の通り**256スロットの監視用配列**の**キャッシュ**を利用する事が多い
  - ・あるバイトについて、それをインデックスとして監視用配列に過渡的にアクセスし、FLUSH+RELOADで後から検知する
- ・**Meltdown**や**Foresight**では256スロットの監視用配列を**1つ**用意して**1バイトずつ**、**ZombieLoad**では256スロット監視用配列を**3つ**用意して**3バイトずつ漏洩値の観測**を行っている
- ・一方、GDSでは**32個の256スロット監視用配列**を用意し、64バイトまたは32バイトのベクトルレジスタから**最大32バイトを同時に漏洩**させるマルチワードデータサンプリングを考える

# プロセス間秘密チャネル (3/9)



- 理論的には最大32バイト同時に漏洩させる事ができそうだが、 実際にはどの程度の同時漏洩が可能であるのかを実験的に確認する
- 攻撃対象の論理スレッド上にて、 **64バイトの連続データを** `vmov` 命令で SIMD 読み出しし、それを並行するシブリングスレッドから GDS で **可能な限り同時に複数バイトを漏洩させる**
  - 具体的には、連続データは **A..Za..z0..9#!** の 64 バイトの連続データである。ただし、ピリオド 2つは表記上の省略を表している
- ベクトルレジスタ内の特定の要素をスカラー値として抽出する `vextract*` 命令や `pextr*` 命令、そしてベクトル内の要素の並び替えや特定要素の取得を行う `vperm*` 命令 (Permute 命令) を駆使してマルチワード漏洩を試みる

# プロセス間秘密チャネル (4/9)



- Tiger Lake CPU上で前ページで述べたマルチワード漏洩手法を試した所、以下の図に示す通り、**最大同時漏洩数は22バイト**であり、殆どの場合**16~21バイトの同時漏洩数**であった
  - 32バイトの同時漏洩ができない原因としては、過渡的実行ウィンドウの限界やノイズの混入などが考えられるが、論文中では言及されていない



図は[1]より引用

# プロセス間秘密チャネル (5/9)



- ・同時漏洩数の次は、漏洩するデータのデータパターンについて実験的に確認する
- ・アルファベット列 (A～T) とXの羅列、そしてYの羅列の3つの羅列を用意し、同一または他の羅列と同時にvmov命令でロードし、そこから**GDS**を用いて抽出する事を試みる
  - ・dwordを収集するGatherとqwordを収集するGatherの両方について実験を行う

# プロセス間秘密チャネル (6/9)



- 実験の結果、以下のようなデータ漏洩パターンが観測された
  - 非常に分かりにくいが、3行で1つの塊として見た際に、一番上の塊がアルファベット列、2番目がXの羅列、3番目がYの羅列のロードについての結果を示している
  - その上で、それぞれ1行目はアルファベット列との同時ロード、2行目はXの羅列との同時ロード、3行目はYの羅列との同時ロードを示している

|                | dword:                   | qword:                   |
|----------------|--------------------------|--------------------------|
| アルファベット列同士     | ABCDEFGHIJKLMNOPQRST     | ABCDEFGHIJKLMNOPQRST     |
| アルファベット列とXの羅列  | ABCDXXXXIJKLXXXXQRST     | ABCDEFGHXXXXXXXXQRST     |
| アルファベット列とYの羅列  | ABCDYYYYIJKLYYYYQRST     | ABCDEFGHYYYYYYYYYYQRST   |
| Xの羅列とアルファベット列  | XXXXEFGHXXXXMNOPXXXX     | XXXXXXXXIJKLMNOPXXXX     |
| Xの羅列同士<br>以下同様 | XXXXXXXXXXXXXXXXXXXX     | XXXXXXXXXXXXXXXXXXXX     |
|                | XXXXYYYYXXXXYYYYXXXX     | XXXXXXXXYYYYYYYYXXXX     |
|                | YYYYEFGHYYYYMNOPYYYY     | YYYYYYYYIJKLMNOPYYYY     |
|                | YYYYXXXXYYYYXXXXYYYY     | YYYYYYYYXXXXXXXXYYYY     |
|                | YYYYYYYYYYYYYYYYYYYYYYYY | YYYYYYYYYYYYYYYYYYYYYYYY |

図は[14]より引用

# プロセス間秘密チャネル (7/9)



- このように、**同時に発生するベクトル命令**によって**読み取り結果に混合が発生**するため、攻撃の裏で行われている処理による意図せぬノイズが入る事もままある
  - よって、单一のdwordあるいはqwordよりも大きい連續した正しいデータを漏洩させられる保証はない
- 論文では、ベクトルレジスタ内の各要素同士の並べかえを行う**Permute命令**を用いる事で、目当てのdwordやqwordのみを抽出できるとしている
  - が、前ページで示したデータ漏洩パターンが決定的なものであるのか書かれていないので、どこまでコントロールできるのかは不明

# プロセス間秘密チャネル (8/9)



- 前ページまででその性質を実験的に確かめた、GDSによるマルチワードデータサンプリングを用いて、実際にプロセス間で秘密チャネルを構築し漏洩速度のベンチマークを取る
- **vmov**命令、**rep mov**（高速メモリコピー）、**fxrstor**命令、**aes**命令の4つからそれぞれ使用したデータをGDSを用いて漏洩させる
- さらに、過渡的実行を誘発させる方法として、**フォールト使用**、**キヤッシュ不可能メモリ使用**、**いずれも不使用**（前述のアトミックなLMSを用いた方法など）の3パターンについて測定する

# プロセス間秘密チャネル (9/9)



- ベンチマークの結果は以下の図の通り（図は[1]より引用）：

| CPU Generation | vmov    |         |         | rep mov |         |         | fxrstor |         |         | aes    |         |        |
|----------------|---------|---------|---------|---------|---------|---------|---------|---------|---------|--------|---------|--------|
|                | ●       | ∪       | ×       | ●       | ∪       | ×       | ●       | ∪       | ×       | ●      | ∪       | ×      |
| Tiger Lake     | 4128.78 | 5584.57 | 5870.3  | 3318.15 | 1438.53 | 1414.55 | 92.35   | 1465.13 | 178.68  | 688.27 | 1763.57 | 1101.7 |
| Ice Lake       | 0.73    | 2.48    | 6.25    | 11.67   | 58.13   | 30.97   | 0.0     | 0.57    | 3.05    | 0.1    | 6.68    | 7.42   |
| Cascade Lake   | 133.27  | 72.47   | 2424.83 | 19.23   | 14.23   | 2569.78 | 76.2    | 3.98    | 1209.13 | 8.0    | 75.77   | 1395.7 |
| Kaby Lake      | 0.03    | 26.45   | 11.12   | 0.2     | 3.87    | 70.2    | 0.03    | 0.1     | 0.07    | 0.0    | 0.13    | 2.03   |

● Cacheable no fault    ∪ uncacheable    × Page fault

- Tiger Lake CPU**においてページフォールトを使用したGDSにより **vmov**命令から漏洩させるシナリオが**5870.3byte/s**と最高効率であった事が分かる

# 任意のデータの盗聴

# 任意のデータの盗聴 (1/2)



- 次に、**任意の静止データ** (Data-at-Rest) をGDSによって盗聴する攻撃を考える
  - Data-at-Rest : ここでは、**攻撃対象アドレス**にマッピングされているが**使用されていない**データを指す。本来は「保存データ」と言い、ある処理において**使用されていない**補助記憶装置上のデータを指す
- この攻撃では、CPUが**静止データ**をベクトルレジスタにプリフェッチする事により、ソフトウェアが**読み込んでいない**にも関わらずGDSが漏洩させられる状況が**2通り**ある事を悪用する
  - 境界外 (OOB; Out-Of-Bounds) プリフェッチ
  - NOPプリフェッチ

# 任意のデータの盗聴 (2/2)



- ・ **境界外プリフェッチ**：ソフトウェアは**本来 $n$ バイトのみ読み取り**を行うはずなのにも関わらず、CPUが**最大 $x$ 個のキャッシュライン** ( $64 \times x$ バイト) をプリフェッチし**漏洩**させてしまう挙動
- ・ **NOPプリフェッチ**：ソフトウェアは**本来0バイトを読み込む** (つまり「何もしない命令」である**nop命令**を実行する) にも関わらず、CPUが**最大 $x$ 個のキャッシュライン**をプリフェッチし**漏洩**させてしまう挙動
- ・ これらは、**マスク付きmove命令** (maskmov) や**繰り返しmove命令** (rep mov) からのGDSによるデータの漏洩に悪用する事ができる

# マスク付きmove命令への攻撃



- ・マスク付き**move**命令：対応するマスクビットが**1**であるような要素のみmove（コピー）を行うようなSIMD命令
  - ・**Gather**命令におけるマスクレジスタのそれと全く同様のイメージ
  - ・マスクビットが**全て0**である場合は、本来は**NOP**命令となるはず
- ・この時、**单一のdword**を読み取ったり、そもそもマスクビットが**全て0**である場合でも、攻撃対象アドレスから**64バイト**をCPUがプリフェッчしてしまう
  - ・GDSの**攻撃側のGather**命令のマスクレジスタとは**全く別の議論である点に注意**。前述の通り、Gather側はマスクビットが0だと収集が行われない
- ・当然、本来アーキテクチャ的にアクセスされるはずがない要素（**静止データ**）もプリフェッチされてしまうため、このような静止データが**GDSにより漏洩**させられてしまう

# 繰り返しmove命令への攻撃 (1/2)



- コピーする連続データのバイト数を $t$ とした時、繰り返しmove命令である**rep mov{t}**命令を実行する場合について考える
  - 前述の通り、**memcpy命令**や**memmove命令**で内部的に使用される
- この命令により、本来は%rcx \* sizeof(t)がアドレス%rsiからアドレス%rdiにコピーされるはずである
  - 早い話が**memcpy(%rdi, %rsi, %rcx \* sizeof(t))**のようなイメージ
- しかし、Tiger Lake CPUで試した所、データ粒度や%rcxの値に関わらず、**キャッシュライン2つ分（128バイト）**までrep movから**GDSによりデータを漏洩**させられる事が分かった
  - コピーサイズが128バイトよりも小さい場合でもこの挙動が発生する



## 繰り返しmove命令への攻撃 (2/2)

- rep mov命令は**広範な場面で使用**されているため、以下の理由によりセキュリティ上のリスクが大きいものとなっている：
  - rep movは**大きな連續秘密データの転送**に用いられる事が多いmemcpyで使われるため、そこかしこで**秘密が漏洩するリスク**となり得る
  - 最大で**128バイトの境界外データを漏洩**させてしまうため、ある種の**過渡的バッファオーバーフロー**ともみなせる挙動が行われてしまう
  - rep movに対するGDSにより、攻撃者は本来アクセスできない領域のデータを取得できてしまうため、**混乱した代理ガジェット**として機能してしまう可能性がある
- rep mov命令によるこの過剰なプリフェッチは、rep mov命令の**投機的な動作に起因**する可能性があると参考文献[18]が示す研究において確認されている

# データ漏洩ガジェット (1/5)



- ここでは、特に繰り返しmove命令からGDSにより**任意の静止データを漏洩させる攻撃**について詳細に見ていく
- 伝統的なバッファオーバーフロー（BoF）攻撃やSpectre攻撃には脆弱ではないが、興味対象のデータをベクトルレジスタに取り込み、結果としてGDSによりそれを漏洩できてしまう**3通りのコード列（ガジェット）**を紹介する

# データ漏洩ガジェット (2/5)



- 3通りのガジェットのコード列は以下の通り：

```
// Gadget 1: Safe check
if(copySize < sizeof(local) &&
copySize+index < sizeof(source)){
    memcpy(local, source+index, copySize);
}

// Gadget 2: Safe no-op check
if(copySize >= sizeof(local) ||
copySize+index >= sizeof(source)){
    copySize = 0;
}
memcpy(local, source+index, copySize);

// Gadget 3: Buggy unexploitable
if(copySize < sizeof(local))
    memcpy(local, source+index, copySize);
```

# データ漏洩ガジェット (3/5)



## ■ ガジェット1：安全なチェック

- ・境界外の読み取りや書き込みの双方を回避するための正しい入力サニティチェックを行っている例
  - ・サニティチェック：境界外参照が起きないかのチェックの事
- ・ソフトウェアレベルでは安全だが、GDSによりソースバッファの境界を超えた漏洩が可能であり、また攻撃者がインデックスを入力できるため、攻撃の幅も広い
- ・例えば、`sizeof(source) = 64`、`index = 63`、`copySize = 1`である場合、サニティチェックには合格するが、`rep mov`に伴う境界外プリフェッチにより後続の128バイト分が漏洩してしまう
  - ・いわばインデックス64～191に相当する部分

# データ漏洩ガジェット (4/5)



## ■ ガジェット2：安全なNOPチェック

- コピーサイズとインデックスをチェックし、それが境界外アクセスに繋がっていると判断した場合、単純に**copySize**を0にする実装
- このようなゼロサイズmemcpyはC言語やrep movにて行われるが、最適化により**NOP命令に置換**される
  - よって、アーキテクチャ的にはコピー処理自体が試行されない
- しかし、この場合もCPUによる**NOPプリフェッチ**によって値が取得され、**GDS**によってそれを漏洩させる事ができてしまう

# データ漏洩ガジェット (5/5)



## ■ ガジェット3：バグはあるが従来型攻撃への悪用はできない例

- ・ユーザにはアクセスできない**非公開なlocalバッファ**に対して  
コピーを行う例
- ・localの**メモリ破壊**は発生しない一方、**インデックスのチェックを行っていない**ため、sourceバッファの**境界外読み取り**は発生する
- ・ただし、**localバッファ**が**非公開**なため、本来はlocal経由で**source**の**境界外**を読み取る事はできない
- ・しかし、この場合も**source+index**の位置を起点としたCPUによる  
**境界外プリフェッチ**が発生し、**GDS**による**漏洩**がでてしまふ

# ユーザ空間からのカーネルメモリの読み取り（1/4）



- ここまで説明したガジェット1～3を実際に実装し、**ユーザ権限の攻撃者がGDSを用いてカーネルデータを漏洩させる実験を行う**
- 従来型のソフトウェア攻撃でカーネルを侵害できないよう、indexやcopySizeといったユーザ入力は**ioctl**を通じて受け付ける、**ローダブルカーネルモジュール（LKM）**を作成する
  - LKM**：後付で追加できる、OSカーネルを拡張するオブジェクトファイル。`/dev/module`のようにマウントして使用する。勿論削除（アンマウント）も可能。
  - ioctl**：ドライバとやり取りをするためのシステムコール
- コピー先の**localバッファ**についても、全ガジェットにおいて**非公開バッファ**であるとする

# ユーザ空間からのカーネルメモリの読み取り (2/4)



- あるプロセスを用いてユーザ空間からioctl経由でindexとcopySizeを提供し、並行するシブリングスレッド上のプロセスで**GDSを実行**する
- 攻撃者は、indexを操作する事で**目当てのデータをプリフェッヂさせ** GDSにより漏洩させる事ができる
- まずdwordを1つ漏洩させ、次に2バイトだけ先に進める。  
前の反復の後半2バイトと現在の反復の前半2バイトが一致したら、  
エラーが発生していないとして受理する、という操作を繰り返す
  - これにより観測結果を確実性の高いものにする事ができる

# ユーザ空間からのカーネルメモリの読み取り (3/4)



- まず、**ガジェット1**を悪用し、Tiger Lake CPU上でこの攻撃を実行する
- sourceバッファは**キャッシュラインサイズ** (64バイト) にアラインされているものとする
  - sourceバッファがキャッシュラインサイズぴったりだと、プリフェッチャがsourceの次のキャッシュライン2つ分を読むように判断し取得するため、境界外の128バイトをベクトルレジスタに持って来られる
- それぞれ10回攻撃を実行した所、128バイトの境界外のカーネルデータを**平均1.04秒**で漏洩させる事に成功した

# ユーザ空間からのカーネルメモリの読み取り (4/4)



- ・また、**238バイト**の**Linuxバナー文字列**を、ガジェット2では**1.37秒**、ガジェット3では**1.58秒**で漏洩させられた
  - ・**Linuxバナー文字列**：ビルドバージョンやタイムスタンプが記載されている、カーネルメモリ上の文字列[19][20]。OS起動時によく目にする。
- ・Linuxカーネルのバイナリでは**2728個**の**rep mov系命令**が存在し、ソースコードでは合わせて**25992個**の**memcpy**及び**memmove**（前述の通り、内部でrep mov系命令を用いている）が見つかった
- ・このように、**原因となる命令が広範に存在する上**、本来バグですら**無いコード**（ガジェット1・2）でも**GDS**によって漏洩が発生するため、**対策に難儀するであろう**事が想像できる

# Gather Value Injection

# Gather Value Injection (1/6)



- GDSは**Meltdown**型の過渡的実行攻撃であるため、LVI同様ベクトルレジスタから漏洩した値を後続の命令への**注入に転用**できる事が推測できる
- 実際に、Downfallでは**Gather Value Injection (GVI)** としてGDSを**LVI的な攻撃に転用**する事に成功している
  - LVIについての詳細はSGX攻撃編③のスライドを参照
- LVIとは異なり、ほぼSGX専用の攻撃というわけではない

# Gather Value Injection (2/6)



- GVIの概要図は以下の通り
  - 比較的LVI-SBに類似している



# Gather Value Injection (3/6)



- Downfallの論文では、2通りのGVIガジェットのコード例を示している：
  - [i]がついている部分はSIMD的に処理される部分だと考えられる

```
// Gadget A: Gather followed by a load
new_index[i] = gather(index_base, index[i]);
value = data_base[new_index[0]];
leak_to_side_channel(value);

// Gadget B: Double gather
new_index[i] = gather(index_base, index[i]);
values[i] = gather(data_base, new_index[i]);
leak_to_side_channel(values[i]);
```

# Gather Value Injection (4/6)



- ガジェットAでは、GDSによってnew\_indexにベクトルレジスタ由來の値を過渡的に代入し、後続の過渡的命令における配列参照のインデックスとして注入している
  - GDSによりnew\_indexに格納された値を境界外を指すような不正な値にする事で、本来アクセスしてはいけない秘密情報を参照できてしまう
- ガジェットBも基本的にAと同様だが、valuesに対する代入（過渡的注入）をSIMD的に行う事で、より効率的に攻撃による秘密の盗聴が可能となる
- ベクトルレジスタを不正なインデックスで埋め尽くすため、攻撃者は並行するシブリングスレッド上でそのような値のvmovを繰り返す

# Gather Value Injection (5/6)



- 実際にGVIによって秘密情報を漏洩させる実験も論文では行っている
  - いずれのガジェットにおいても、キャッシングに痕跡を残しサイドチャネル的に観測するのはGDSやLVIと同様
- GDS同様、Gather対象をキャッシング不可能として過渡的実行を誘発する。また、Gatherの前にキャッシングミスを誘発させる事で過渡的実行ウィンドウを拡大させている
- Tiger Lake CPUで10秒間**GVI**を実行するのを100回繰り返した所、1秒間に平均**8734.3バイト**の境界外データを漏洩させる事に成功
  - ガジェットA・Bのどちらが使用されたのかは論文中に明記されていない

# Gather Value Injection (6/6)



- これもGDS同様に、GVIも必ずしも過渡的実行の誘発に異常 (Exotic) アドレスを用いる必要はない
- 先程のガジェットのような、Gather命令を用いた二重インデックスを用いている例として、耐量子公開鍵暗号の1つである **CRYSTALS-KYBER[21]** の実装が挙げられる

# SGXへのGDS攻撃

# SGXへのGDS攻撃 (1/4)



- 攻撃の実例の最後として、**おまけ程度にSGXのEnclaveからシーリング鍵を抽出する攻撃**を考案し実現に成功している
- Enclaveのコードページを実行不能とし**ゼロステップ処理**を発動させる事で、AEXの度に同一ハイパースレッド上で**GDSを実行**する
  - ゼロステップ処理に関してはForeshadowの解説（SGX攻撃編③）を参照
- これにより、AEXやERESUMEの内部実装である[9]fxsaveやfxrstorから、予めベクトルレジスタに格納しておいた**既知の古い値が漏洩する事が判明**した
  - Kaby Lake向けの当時最新のマイクロコードアップデートを適用した状態でも漏洩可能であった
  - さらに、**ハイパースレッド不使用**でも**攻撃に成功**した

# SGXへのGDS攻撃 (2/4)



- ・シーリング鍵の中でも、**EPID-RA**における信頼性の根拠そのものである**Attestationキー**をシーリング/アンシーリングするために使用される、**PSK**（Provisioning Seal Key）を**抽出**する
  - ・PSKはAttestationキーを取り扱うPvEやQEにより使用される
- ・当然、PSKが漏洩すれば**Attestationキー**も簡単に**PSK**で復号し**抽出**できてしまう
- ・他の攻撃の場合と同様、**Attestationキー**が漏洩する事で**QUOTE構造体の偽造**が可能となり、Intelにより失効してもらわない限り**RAの信頼性が破綻**してしまう

# SGXへのGDS攻撃 (3/4)



- ・シーリングのためにSGXSDKで用意されている`sgx_seal_data`関数は、内部で`EGETKEY`命令のラッパーである`sgx_get_key`関数を呼び出している
- ・`sgx_get_key`関数は、まず**初めにAES鍵の鍵伸長**のために`I9_aes128_KeyExpansion_NI`関数を呼び出しているが、これが**AES-128のマスター鍵をベクトルレジスタxmm0にロード**している
  - ・AESの鍵伸長についてはLVIの解説（SGX攻撃編③）を参照
- ・よって、`sgx_seal_data`の最初で**一時停止**し、SGX-Step等を使用しつつゼロステップ処理を行えば、xmm0のコンテキストを内包する**SSA**から**AES鍵 (=PSK)**を**抽出**できる

# SGXへのGDS攻撃 (4/4)



- 攻撃対象のl9\_aes128\_KeyExpansion\_NI関数は以下のようなコードである：

```
<l9_aes128_KeyExpansion_NI>:  
endbr64  
vmovdqu (%rsi),%xmm0  
vpslldq $0x4,%xmm0,%xmm2 // <-- Zero Stepping
```

- 実際にvpgatherddとvpermdd (Permute命令) を使用したGDSを10秒間実行してAEから**4つの異なるdwordを抽出**し、最も高い頻度で出現したものを組み合わせた所、**PSKを構築する事に成功**した
  - PvEかQEのどちらを攻撃したのかは明記されていないが、sgx\_seal\_dataを攻撃するという記述から、**PvEを狙っていると推察**できる

輕減策

# 軽減策 (1/4)



- ・ハイパスレッディングの無効化は部分的に有効だが、動作性能に影響がある上、SGXへの攻撃のようなコンテキストスイッチに伴うGDSによる漏洩は対策できない
  - ・そもそもハイパスレッドを攻撃に用いていないため
- ・影響を受けるSIMD命令の禁止やGatherの無効化は、動作性能の著しい低下やソフトウェア互換性の喪失を招く可能性があり、様々なシナリオにおいて致命的となり得る

## 軽減策 (2/4)



- LVI等と同様、Gather命令の後ろに**Ifence命令**を挿入する事で、後続の命令への過渡的転送を阻止しGVIを阻止する事が可能
- コンパイラが**信頼可能**かつ実行バイナリ中の命令を攻撃者が選択できない状況であれば、コンパイラが**Gather命令の内部**に**Ifence**を挿入する事でGDSも対策できる
  - SGXであれば上記の対策を盛り込んだEnclaveイメージを作成した上で、RAで**MRENCLAVE**をチェックする事により信頼し軽減を実現できる
- 実際に、IntelはGDSとGVIを軽減するための、Gatherからの過渡的転送を防ぐマイクロコードアップデートをリリース予定である
  - 恐らく既にリリースされている

## 軽減策 (3/4)



- MeltdownタイプやMDSタイプの攻撃を発見するファジングベースのテストツールとして、**Transynther**[23]というものがある
  - ・ ファジング：異常値を入力する事でシステムの欠陥を検出するテスト手法
- 従来のTransyntherでは**Gather命令についてのテストを生成していなかった**ために、今まで**GDSを発見できていなかった**

# 軽減策 (4/4)



- そこで**Gather**のテストのみを行うようTransyntherを改造して実行した所、様々な場合における**GDSの自動的な発見**に成功した
  - 並行するシブリングスレッドを使う場合と使わない場合の双方にて、様々な誘発条件 (Meltdown-MPK/UC/US) に基づくGDSを発見
- この事から、他のMeltdownタイプの過渡的実行攻撃と同様、**Gather**のような命令でもその**Meltdown型脆弱性**の**自動的な発見**に**有効**であると考えられる

# 参考文献 (1/4)



- [1]"ZombieLoad: Cross-Privilege-Boundary Data Sampling", Michael Schwarz et al.,  
<https://zombieloadattack.com/zombieload.pdf>
- [2]"キヤッショの書き込みポリシーと仮想記憶", 天野英晴 (慶應義塾大学),  
<https://www.am.ics.keio.ac.jp/partenon/cache2.pdf>
- [3]"Rapid Prototyping for Microarchitectural Attacks", Catherine Easdon et al.,  
<https://www.usenix.org/system/files/sec22-easdon.pdf>
- [4]"ZombieLoad Attack", Daniel Gruss et al., [https://gruss.cc/files/zombieload\\_36c3.pdf](https://gruss.cc/files/zombieload_36c3.pdf)
- [5]"64bitでのアドレス空間", 2023/9/27閲覧, <https://wiki.bit-hive.com/linuxkernelmemo/pg/64bit%E3%81%A7%E3%81%AE%E3%82%A2%E3%83%89%E3%83%AC%E3%82%B9%E7%A9%BA%E9%96%93>
- [6]"ページング入門", 2023/09/28閲覧, <https://os.phil-opp.com/ja/paging-introduction/#peziteburunoxing-shi>
- [7]"Intel SGX Explained", Victor Costan & Srinivas Devadas, <https://eprint.iacr.org/2016/086.pdf>



## 参考文献 (2/4)

[8]"LVI: Hijacking Transient Execution through Microarchitectural Load Value Injection", Jo Van Bulck et al., <https://lviattack.eu/lvi.pdf>

[9]"ZombieLoad: Cross-Privilege-Boundary Data Sampling", Michael Schwarz et al., <https://zombieloadattack.com/zombieload.pdf>

[10]"Fallout: Leaking Data on Meltdown-resistant CPUs", Claudio Canella et al., <https://mdsattacks.com/files/fallout.pdf>

[11]"Load Value Injection", Intel,  
<https://www.intel.com/content/www/us/en/developer/articles/technical/software-security-guidance/technical-documentation/load-value-injection.html>

[12]"AESを理解する", Qiita, 2023/7/25閲覧, <https://qiita.com/tobira-code/items/152befa86bd515f67241>

[13]"MDS: Microarchitectural Data Sampling", 2023/7/20閲覧, <https://mdsattacks.com/>



## 参考文献 (3/4)

[14]"Downfall: Exploiting Speculative Data Gathering", Daniel Moghimi,  
<https://downfall.page/media/downfall.pdf>

[15]"Downfall Attacks", Daniel Moghimi, <https://downfall.page/>

[16]"Gather Data Sampling", Intel,  
<https://www.intel.com/content/www/us/en/developer/articles/technical/software-security-guidance/technical-documentation/gather-data-sampling.html>  
(魚拓：<https://archive.is/NCTdf>)

[17]MOVDIR64B — Move 64 Bytes as Direct Store, 2023/10/15閲覧,  
<https://www.felixcloutier.com/x86/movdir64b>

[18]Hide and Seek with Spectres: Efficient discovery of speculative information leaks with random testing, Oleksii Oleksenko et al., <https://arxiv.org/pdf/2301.07642.pdf>

# 参考文献 (4/4)



[19]コメントから読む Linux カーネル, Sano Taketoshi,  
<http://archive.linux.or.jp/JF/JFdocs/readkernel.html>

[20]linux/init/version-timestamp.c, GitHub,  
<https://github.com/torvalds/linux/blob/b85ea95d086471afb4ad062012a4d73cd328fa86/init/version-timestamp.c#L28>

[21]CRYSTALS-Kyber: a CCA-secure module-lattice-based KEM, Joppe Bos et al.,  
<https://eprint.iacr.org/2017/634.pdf>  
実装：<https://csrc.nist.gov/CSRC/media/Projects/post-quantum-cryptography/documents/round-3/submissions/Kyber-Round3.zip>

[22]Intel® Software Guard Extensions Programming Reference, Intel,  
<https://www.intel.com/content/dam/develop/external/us/en/documents/329298-002-629101.pdf>

[23] Medusa: Microarchitectural Data Leakage via Automated Attack Synthesis, Daniel Moghimi et al., <https://www.usenix.org/system/files/sec20-moghimi-medusa.pdf>