The Linux Kernel: メモリ管理

4. メモリ管理

メモリ管理サブシステムは、オペレーティングシステムの最も重要な部分のひとつである。コンピュータの黎明期以来、システム上にある物理メモリだけでは足りない状況がずっと続いてきた。この限界を克服するために様々な戦略が立てられたが、それらのうちで最も成功したのが、仮想メモリ(virtual memory)である。仮想メモリとは、システムに実際以上のメモリがあるかのように見せる仕組みであり、メモリ争奪関係にあるプロセス間で、必要に応じてそれらを協調して使用することにより実現されている。

仮想メモリは、コンピュータのメモリを大きく見せること以外にも様々な機能を提供している。メモリ管理サブシステムが提供する機能には、次のようなものがある。

巨大なアドレス空間

オペレーティングシステムは、システム上に実際以上のメモリがあるかのように振る舞う。仮想メモリはシステム上の物理メモリより、何倍も大容量にできる。

データ保護

システム上のプロセスは、各々が独自の仮想アドレス空間を持っている。これらの仮想アドレス空間は、お互いに完全に独立しているので、あるアプリケーションを実行しているプロセスは、他のプロセスに影響を与え得ない。さらに、メモリエリアはハードウェア上の仮想メモリ機構によって、書き込みから保護されている。これによって、コードやデータを、出来の悪いアプリケーションによる上書きから保護している。

メモリマッピング

メモリマッピング(memory mapping)は、イメージやデータファイルをプロセスのアドレス空間にマップ(map)するために使用される。メモリマッピングにおいて、ファイルの内容は、プロセスの仮想アドレス空間に直接リンクされる。

公正な物理メモリの割り当て

メモリ管理サブシステムによって、システム上で実行されている個々のプロセスは、システムの物理メモリ上に公正な持ち分を所持することができる。

共有仮想メモリ

仮想メモリはプロセスが個別の(仮想)アドレス空間を持つようにしているが、複数のプロセスでメモリを共有(share)しなければならない場合もある。たとえば、bash のコマンドシェルを実行しているプロセスがシステム上に複数存在することがある。その場合、物理メモリ内に複数の bash のコピーが存在して、個々のプロセスが個別の仮想アドレス空間を持つよりも、ひとつだけのコピーが存在し、bash を実行するすべてのプロセスでその仮想アドレス空間を共有するほうが効率がよい。動的ライブラリ(dynamic library)は、複数のプロセス間で実行コードを共有するもうひとつの典型例である。

共有メモリ(shared memory)は、プロセス間通信(Inter Process Communication, IPC)のメカニズムでも使用される。それは、ふたつ以上のプロセスが、それらすべてに共通のメモリを経由して、情報を交換する仕組みである。Linux は、Unix System V の共有メモリ IPC をサポートしている。

4.1 仮想メモリの抽象モデル

図表(3.1) 仮想アドレスから物理アドレスへのマッピングに関する抽象モデル

Linux が仮想メモリをサポートする方法を考える前に、煩瑣な詳細を省いた抽象モデルを検討することは有益である。

プロセッサがプログラムを実行するとき、プロセッサはメモリから命令を読み出して、デコード(decode)する。命令をデコードする際、プロセッサは、ある地点のメモリの内容を読み出したり(fetch)、書き込んだり(store)することが必要になる場合もある。そして、プロセッサはその命令を実行し、プログラムの次の命令に移る。このように、プロセッサはいつもメモリにアクセスしながら、命令を読み出したり、あるいは、データを読み書きしたりしている。

仮想メモリシステムでは、それらに使用されるアドレスはすべて仮想アドレスであり、物理アドレスではない。それらの仮想アドレスはプロセッサによって物理アドレスに変換されるのだが、その変換は、オペレーティングシステムが管理する変換テーブルに保持された情報を基にして行われる。

この変換を容易にするため、仮想メモリと物理メモリは、ページ(page)と呼ばれる扱い易い単位に分割されている。それらのページはすべて同じサイズである。ページのサイズは必ずしも同一である必要はないのだが、同一サイズでない場合、システムによる管理が非常に困難なものになるためにそうされている。Alpha AXP システム上の Linux では、8 k バイトのページを使用し、Intel x86 システムでは、4 k バイトのページが使用されている。ページそれぞれには、他と重複しない数値のページフレーム番号(Page Frame Number, PFN)が割り振られている。

このようにページ分割されたシステムの場合、仮想アドレスは、オフセット(offset) と仮想ページフレーム番号(PFN)のふたつの部分から構成される。ページサイズが 4 k バイトならば、仮想アドレスの bit 11 から 0 にオフセットが含まれていて、 bit 12 以降が仮想ページフレーム番号となっている。プロセッサは仮想アドレスに出会うたびに、オフセット番号と仮想ページフレーム番号を抽出する。プロセッサは、仮想ページフレーム番号を物理ページフレーム番号に変換し、その上で、該当する物理ページの正しいオフセット番号の位置にアクセスする。その変換のために、プロセッサはページテーブル(page table)を使用する。

図表(3.1)は、プロセス X とプロセス Y というふたつのプロセスの仮想アドレス空間を示すもので、どちらもプロセス自身のページテーブルを持っている。それらのページテーブルは、プロセスの仮想ページをメモリの物理ページにマップするものである。この図表では、プロセス X の仮想ページフレーム番号 0 が物理ページフレーム番号 1 にマップされ、プロセス Y の仮想ページフレーム番号 1 が物理ページフレーム番号 4 にマップされている。理論的には、ページテーブル内のそれぞれのエントリーには、次の情報が含まれている。

有効フラグ(valid flag)

ページテーブルのエントリが有効かどうかを示す。

物理ページフレーム番号(physical page frame number)

そのエントリが記述している物理ページフレーム番号。

アクセス制御情報(access control information)

そのページが利用される方法を記述している。書き込み可能か、実行コードを含むかといったことに関係する情報。

ページテーブルにアクセスする場合、仮想ページフレーム番号が(ページテーブルへの)オフセットとして使用される。仮想ページフレーム番号の 5 は、ページテーブルの 6 番目の要素に該当する。(0 が最初の要素に該当するためである。)

仮想アドレスを物理アドレスに変換する場合、プロセッサはまず仮想アドレスページフレーム番号とその仮想ページ内のオフセット値を探さなければならない。ページサイズを 2 の n 乗とすることで、マスク操作(masking)とシフト操作(shifting)によりそれは簡単に実行できる。もう一度図表(3.1)を見てほしい。ページサイズが 0x2000 バイト(十進数なら 8192)で、プロセス Y の仮想アドレス空間でのアドレスが 0x2194 だとすると、プロセッサがそのアドレスを変換した結果は、オフセット値 0x194 を持つ仮想ページ番号 1 となる。

プロセッサは、仮想ページフレーム番号をプロセスのページテーブルへのインデックスとして使用することで、そのページテーブルエントリを知る。もしそのオフセット位置にあるページテーブルエントリが有効(valid)ならば、プロセッサはそのエントリから物理ページフレーム番号を取得する。エントリが無効なら、プロセスは物理メモリ上に存在しない仮想メモリ領域にアクセスしたことになる。その場合、プロセッサはアドレスを解決できないので、オペレーティングシステムに制御を渡すことで、問題の解決を依頼する。

現在のプロセスが有効な変換先のない仮想アドレスにアクセスしようとしたことをプロセッサがオペレーティングシステムに伝える方法は、プロセッサの種類によって異なる。しかしプロセッサの伝達方法がどのようなものであれ、その現象はページフォルト(page fault)と呼ばれていて、オペレーティングシステムには、フォルトとなった仮想アドレスとフォルトが生じた原因とが通知される。

ページテーブルのエントリが有効であった場合、プロセッサは、物理ページフレーム番号を取得し、それにページサイズを掛け算して、物理メモリ内のページのベースアドレス(base address)を取得する。最後に、プロセッサは、(そのベースアドレスを起点に)取得すべき命令やデータまでのオフセットを、そのベースアドレスに加える (ことで、完全な物理アドレスを得る)。

上記の例を再び取り上げると、プロセス Y の仮想ページフレーム番号 1 は、物理ページフレーム番号 4 にマップされる。その物理ページフレームは、アドレス 0x8000(4 x 0x2000)を起点(ベースアドレス)としている。そのアドレスに 0x194 バイトのオフセット値を加えると、最後に 0x8194 という物理アドレスが得られる。

仮想アドレスから物理アドレスへのマッピングにこうした方法を使用することで、仮想メモリからシステムの物理メモリへのマッピングが、その番号と無関係に可能となる。たとえば、図表(3.1)において、プロセス X の仮想ページフレーム番号 0 は、物理ページフレーム番号 1 にマップされるが、仮想ページフレーム番号 7 は、仮想ページフレーム 0 より大きな番号であるにも関わらず、物理ページフレーム 0 にマップされる。このことは、仮想メモリ機構が興味深い副産物を持つことを意味する。すなわち、仮想メモリのページは、物理メモリ内で特定の順番通りに並んでいる必要がないということである。

デマンドページング

仮想メモリに比べて物理メモリは非常に量が少ないので、オペレーティングシステムは物理メモリを効率的に使うよう気を配らなければならない。物理メモリを節約するひとつの方法は、実行中のプログラムが現在使用している仮想ページだけをロードすることである。たとえば、データベースプログラムがデータベースに問い合わせを実行したとする。その場合、データベース全体がメモリにロードされる必要はなく、調べる必要のあるデータレコードだけがロードされればよい。データベースへの問い合わせが検索である場合、新規レコード追加の処理をするデータベースプログラムのコードをロードしても意味がない。アクセスされた仮想ページだけをメモリにロードするというこのテクニックは、デマンドページング(demand paging) と呼ばれる。

プロセスが物理メモリ上にない仮想アドレスにアクセスしようとした場合、プロセッサは、参照された仮想ページのページテーブルエントリを見つけることができない。たとえば、図表(3.1) では、プロセス X のページテーブルには、仮想フレーム番号 2 のエントリがないので、プロセス X が仮想ページフレーム番号 2 の中にあるアドレスを読もうとしても、プロセッサは、そのアドレスを物理メモリ上のアドレスに変換できない。この時点で、プロセッサは、ページフォルトが発生したことをオペレーティングシステムに通知する。

フォルトとなった仮想アドレスが無効なものである場合、それはプロセスが存在しない仮想アドレスにアクセスしようとしたことを意味する。おそらく、アプリケーションに不具合が起こって、たとえばメモリ内のランダムなアドレスへ書き込みをしようとしたのかもしれない。この場合、オペレーティングシステムはそのプロセスを終了させて、暴走したそのプロセスからシステム内の他のプロセスを保護する。

しかし、フォルトとなった仮想アドレスが有効なものであり、参照されたページはそのときメモリ内になかっただけである場合、オペレーティングシステムは、ディスク上のイメージから適切なページをメモリ内に持ってこなければならない。ディスクアクセスは、相対的に時間の掛かる処理なので、プロセスは、ページが来るまでの間待っている必要がある。その際に実行可能なプロセスがあれば、オペレーティングシステムはそのいくつかを選んで実行する。そして、取ってきたページを空いた物理ページフレームに書き込んで、仮想ページフレーム番号用のエントリーをプロセスのページテーブルに追加する。それによって、プロセスはメモリフォルトが発生した命令があった場所から再び実行される。今度は、仮想メモリへのアクセスに成功し、プロセッサも仮想アドレスから物理アドレスへの変換ができるので、プロセスの実行は継続する。

Linux は、デマンドページングを使用して、実行イメージをプロセスの仮想メモリにロードする。コマンドが実行される際はいつも、そのコマンドを含むファイルがオープンされ、ファイルの内容がプロセスの仮想メモリにマップされる。その処理は、そのプロセスのメモリマップを記述しているデータ構造体を修正することにより行われるので、メモリマッピング(memory mapping)と呼ばれる。しかし、実際に物理メモリに置かれるのはイメージの最初の部分だけであり、残りはディスクに保存されたままとなる。したがって、イメージが実行されるとページフォルトが起こり、Linux は、プロセスのメモリマップを利用して、イメージのどの部分をメモリに持ってくれば実行が完遂できるのかを判断する。

スワッピング

あるプロセスが仮想ページを物理メモリに持ってこなければならないのだが、利用可能な物理メモリの空きがない場合、オペレーティングシステムは、別のページを物理メモリから取り除くことでそのページのための空間を確保しなければならない。

物理メモリから取り除くべきページがイメージやデータファイルのコピーであり、上書きされてはいない場合、そのページは保存する必要はない。破棄しておいて、プロセスが再度そのページを必要としたときに、該当するイメージやデータファイルからメモリ内に戻せばそれでよい。

しかし、ページが変更されている場合には、オペレーティングシステムは、そのページを維持して、後でそのページにアクセスできるようにしなければならない。この種のページは、ダーティページ(dirty page)と呼ばれ、メモリから削除されるときにスワップファイルと呼ばれる特別なファイルに保存される。スワップファイルへのアクセスには、プロセッサとメモリとの間のスピードと比べて非常に長い時間が掛かるので、オペレーティングシステムは、ページをディスクに書き込む必要がある場合でも、再使用に備えて出来るだけそれをメモリに保持する必要がある。

破棄やスワップするページを決めるために使用されるアルゴリズム(スワップアルゴリズム)の効率が悪い場合、スラッシング(thrashing)と呼ばれる状態に陥る。その場合、ページは間断なくディスクに書き込まれたり読み出されたりするので、オペレーティングシステムはそれに時間を取られて本来の仕事が出来なくなる。たとえば、もし物理ページフレーム番号 1 ( 図表(3.1)) が定期的にアクセスされるなら、そのページはハードディスクにスワップされるべきではない。プロセスが現在使用しているページセットは、ワーキングセット(working set)と呼ばれる。効率の良いスワップスキームとは、すべてのプロセスが自分のワーキングセットを物理メモリに持つよう手配するスキームである。

Linux は、最も使用頻度の少ない(最長時間未使用(Least Recently Used, LRU)) ページの寿命を縮める(エイジング(aging))というテクニックを使って、システムから削除すべきページを公平に選択している。このスキームでは、システム内のすべてのページが寿命(age)を持っていて、それがページアクセスされると、変更される仕組みになっている。ページへのアクセスが多ければ、そのページの寿命は長くなる。アクセスが少なければ寿命が縮み、必要性が薄れる。寿命が尽きたページは、スワッピングの有力な候補となる。

共有仮想メモリ

仮想メモリ機構は、複数のプロセスでのメモリの共有を実現しやすくする。メモリへのアクセスはすべてページテーブル経由で行われ、プロセスはそれぞれ自分の独立したページテーブルを持っている。ふたつのプロセスがメモリ内の物理ページを共有するには、その物理ページのフレーム番号が、両者のページテーブル内のエントリに存在する必要がある。

図表 3.1 では、ふたつのプロセスが物理ページフレーム番号 4 を共有している様子が示されている。プロセス X にとって、これは仮想ページフレーム番号 4 であり、プロセス Y にとって、これは仮想ページ番号 6 である。これはページ共有の興味深い点を示している。共有された物理ページは、それを共有するプロセスにとって仮想メモリの同じ位置に存在しなくてもよいということである。

物理アドレスモードと仮想アドレスモード

オペレーティングシステム自体が仮想メモリ内で実行されるというのはほとんどナンセンスである。オペレーティングシステムが自分のページテーブルを管理しなければならないとしたら、悪夢のような状況になるだろう。大部分の汎用プロセッサは、仮想アドレスモードと同時に物理アドレスモードという概念をサポートしている。物理アドレスモードでは、ページテーブルは不要であり、プロセッサはこのモードのときはアドレス変換をしようとしない。Linux カーネルは、この物理アドレスモードで実行されるようにリンクされている。

Alpha AXP プロセッサは、特に物理アドレスモードというのは持っていない。そのかわり、メモリ空間をいくつかのエリアに分割していて、そのうちのふたつを物理的にマッピングされたアドレス空間として使用する。このカーネルアドレス空間は、KSEG アドレス空間と呼ばれていて、0xfffffx0000000000 以上のすべてのアドレスを包含している。KSEG 領域にリンクされているコード(カーネルコードと定義されるコード)を実行したり、その領域のデータにアクセスしたりするためには、そのコードはカーネルモードで実行される必要がある。Alpha 上の Linux カーネルは、アドレス 0xfffffc0000310000 から実行されるようにリンクされている。

アクセス制御

ページテーブルのエントリには、アクセス制御情報も含まれている。プロセッサは、プロセスの仮想アドレスを物理アドレスにマップするためにいつもページテーブルを使用するので、そこに含まれたアクセス制御情報を利用して、プロセスが許されていない方法でメモリにアクセスしていないかどうかを簡単にチェックできる。

メモリの特定のエリアへのアクセスを制限すべき理由は数多くある。実行コードを含むようなメモリは、通常読み出し専用である。オペレーティングシステムは、プロセスがそのような実行コードの位置にデータを上書きするのを許すべきではない。反対に、データを含むページは上書きされてもよいわけであり、そのメモリの内容を実行しようとする命令があった場合、失敗させなければならない。大部分のプロセッサには、実行に関してカーネルモードとユーザモードという少なくともふたつのモードがある。カーネルコードをユーザが勝手に実行できないようにするためであり、プロセッサがカーネルモードで動いているとき以外は、カーネルのデータ構造へのアクセスを許さないようにするためである。

図表(3.2) Alpha AXP のページテーブルエントリ(PTE)

アクセス制御情報は、PTE に保持されており、それはプロセッサに固有のものである。図表(3.2)は、Alpha AXP の PTE を表している。そのビットフィールドは、次のような意味を持つ。

V     「有効(Valid)」。これが設定されると、PTE が有効となる。
FOE   「実行フォールト(Fault On Execute)」。このページ内で命令が実行されようとし
      た際は、プロセッサがページフォルトを報告し、制御をオペレーティングシステム
      に渡す。
FOW   「書き込みフォールト(Fault on Write)」。上記と同様だが、このページへ書き込
      もうとした場合のページフォルトである。
FOR   「読み込みフォールト(Fault On Read)」。上記と同様だが、このページの読み込も
      うとした場合のページフォルトである。
ASM   「アドレス空間合致(Address Space Match)」。これが使用されるのは、オペレー
       ティングシステムが変換テープルから数個のエントリだけを削除したいときである。
KRE    カーネルモードで実行されているコードは、このページを読むことができる。
URE    ユーザモードで実行されているコードは、このページを読むことができる。
GH     Granularity hint(粒度ヒント). ひとつのブロック全体を分割せずに単一の変換
       バッファにマッピングするときに利用される。
KWE    カーネルモードで実行されているコードはこのページに書き込み可能。
UWE    ユーザモードで実行されているコードは、このページに書き込み可能。
PFN(page frame number)
       V ビットが設定された PTE では、このフィールドには、当該 PTE への物理フレー
       ム番号(ページフレーム番号)が書かれている。V ビットが設定されていおらず、こ
       のフィールドがゼロでない場合、スワップファイル内でのページの場所に関する情
       報が書かれている。

次のふたつのビットは、Linux で定義され、使用されているものである。

_PAGE_DIRTY
      これが設定された場合、このページはスワップに書き出される必要がある。
_PAGE_ACCESSED
      ページがアクセスされたことを記すために使用される。

4.2 キャッシュ

上記の理論モデルを使ってシステムを実装した場合、確かに機能はするであろうが、それほど効率のよいものにはならない。オペレーティングシステムとプロセッサの設計者はどちらもシステムからよりよいパフォーマンスを引き出そうと懸命に努力しているからである。より速いプロセッサやメモリを製造するといったことを別にすると、処理速度を上げる最良の方法は、頻繁に使用する情報やデータのキャッシュを維持管理することである。Linux では、キャッシュに関するいくつかのメモリ管理機構が利用されている。

バッファキャッシュ

バッファキャッシュ(buffer cache)には、ブロックデバイスドライバが使用するデータバッファが含まれている。
[see: fs/buffer.c]
これらのバッファは固定サイズ(たとえば、512 バイト)で、ブロックデバイスから読み出されたか、そこに書き込まれた情報のブロックが入っている。ブロックデバイスとは、データアクセスの際に、固定サイズのブロック単位でのみ読み書きできるデバイスを指す。すべてのハードディスクはブロックデバイスである。

バッファキャッシュは、デバイス識別子と必要なブロック番号とでインデックス付けされていて、データブロックをすばやく見つけだすために使用されるものである。ブロックデバイスは、バッファキャッシュを経由しなければアクセスできない。データがバッファキャッシュに見つかれば、たとえばハードディスクのような物理ブロックデバイスから読み出す必要がなくなるので、アクセスがずっと高速になる。

ページキャッシュ

ページキャッシュ(page cache)は、ディスク上のイメージやデータへのアクセスを高速化するために使用される。
[see: mm/filemap.c]
これは、ページ単位でファイルの論理的な内容をキャッシュし、ファイル名とそのファイル内のオフセットを使ってアクセスされる。ページがディスクからメモリに読み出されると、それらはページキャッシュにキャッシュされる。

スワップキャッシュ

変更された(あるいは、dirty な)ページだけが、スワップファイルに保存される。
[see: swap.h, mm/swap_state.c, mm/swapfile.c]
当該ページがスワップファイルに書き込まれてから変更されていない場合は、再度スワップアウトされたとしても、同じページがすでにスワップファイル内にあるわけだから、スワップファイルに書き込む必要はない。そのページは単に破棄される。システムがスワップを頻繁に使用する場合、これによって時間の掛かる不必要なディスク操作を大幅に省略できる。

ハードウェアキャッシュ

ハードウェアキャッシュ(hardware cache)の実装として一般的なのが、プロセッサ内のハードウェアキャッシュである、ページテーブルエントリのキャッシュである。この場合、プロセッサはいつも直接ページテーブルを読み出すのではなく、変換が必要であったときにそのページ変換をキャッシュしておく。プロセッサ内には、アドレス変換バッファ(Translation Look-aside Buffer, TLB)があり、そこには、システム上の複数のプロセスに関するページテーブルエントリのコピーがキャッシュされている。

仮想アドレスへの参照が行われるとき、プロセッサは合致する TLB エントリを探そうとする。それが見つかれば、仮想アドレスを直接物理アドレスに変換して、データに対して適切な処理を実行する。プロセッサが合致する TLB エントリを見つけ出せない場合は、オペレーティングシステムに助けを求める。すなわち、プロセッサは、オペレーティングシステムに対して、TLB 失敗(TLB miss)が起こったことをシグナルで伝える。システム固有のメカニズムを使用して、その例外(exception)をオペレーティングシステムの例外処理コードに渡す。オペレーティングシステムは、そのシグナルを受けて、アドレスマッピングのための新しい TLB エントリを生成する。例外がクリアされると、プロセッサは再度仮想アドレスの変換を試みる。今回は、 TLB 内に必要なアドレスに関する有効なエントリがあるので、問題なく変換される。

ハードウェアキャッシュやその他のキャッシュを使う場合の欠点は、手順を簡略化するために、これまで以上の時間とメモリ空間を使ってそうしたキャッシュを維持しなければならないということであり、もしキャッシュが壊れると、システムがクラッシュするということである。

4.3 Linux のページテーブル

図表(3.3) 3 つのレベルのページテーブル

Linux では、3 つのレベルのページテーブルの存在が前提になっている。アクセスされる個々のページテーブルには、次の段階のページテーブルにおけるページフレーム番号が含まれている。図表(3.3)では、仮想アドレスがいくつかのフィールドに分割されている様子が示されている。図中の仮想アドレスの個々のフィールドが提供するのは、特定のページテーブルへのオフセットである。プロセッサは、仮想アドレスを物理アドレスに変換するため、まず個々のレベルのフィールドの内容を取得して、その内容を当該レベルのページテーブルを含む物理ページ上でのオフセットへと変換し、それによって次のレベルのページテーブルのページフレーム番号を読み取る。この処理を三度繰り返すと、その仮想アドレスを含んだ物理ページのページフレーム番号が分かる。仮想アドレスの最後のフィールドは、バイトオフセット(byte offset)となっていて、それを使用して当該物理ページ内で必要なデータを見つけ出す。

Linux を実行するプラットフォームが提供しなければならないのが、変換マクロである。これは、カーネルが特定のプロセスのためにページテーブルを走査することを可能にするものである。そうすることで、カーネルはページテーブルエントリのフォーマットや、その仕組みを知る必要がなくなる。
[see: include/asm/pgtable.h]
この方法は非常に成功しているので、Linux は、ページテーブル操作のコードとして Alpha プロセッサにも Intel x86 プロセッサにも同じものを使用している。ただ、 Alpha プロセッサは、3 つのレベルのページテーブルを持つが、Intel x86 は、 2 つのレベルのページテーブルを持つという違いがある。

4.4 ページの割り当てとページの解放

システム内の物理メモリに対する需要は大きい。たとえば、イメージがメモリにロードされるとき、オペレーティングシステムは、それに物理ページを割り当てる。イメージが実行を終了し取り除かれたら、そのページは解放される。物理メモリは他にも、ページテーブル自体のようなカーネル固有のデータ構造を保持する用途に使用される。ページ割り当てと解放に使用されるメカニズムとデータ構造は、仮想メモリサブシステムの効率を維持する上でおそらく最も重要なものである。

システム内のすべての物理ページは mem_map というデータ構造によって記述されている。それは、mem_map_t 構造体( 脚注 1 )のリストであり、それらは起動時に初期化される。
[see: include/linux/mm.h]
個々の mem_map_t は、システム内の単一の物理ページを記述する。(メモリ管理に関する限り)その構造体の重要なフィールドには、次のようなものがある。

count   これは、そのページのユーザ数のカウンターである。ページが複数のプロセ
        スで共有されている時、このカウントは 1 より多くなる。
age     このフィールドは、ページの 寿命(age)を記述するもので、そのページが破棄
        やスワップの候補であるかを判断するのに使われる。
map_nr  これは、mem_map_t が記述する物理ページのフレーム番号である。

free_area という配列も、ページ割り当てのコードにより、ページの検索と解放のために使用される。すべてのバッファ管理スキームはこのメカニズムによってサポートされており、そのコードに関する限り、プロセッサの物理ページングメカニズムとページサイズとの間には、関連性がない。

free_area の個々の要素は、ブロック単位のページに関する情報を含んでいる。すなわち、配列の最初の要素はひとつのページ、次が 2 つのページから成るブロック、さらに次が 4 つのページから成るブロックというふうに 2 の n 乗でブロックのページ数が増える。構造体の要素 list はキューの先頭として使用され、mem_map 配列内の page データ構造体へのポインタとなっている。 (訳注: list は、v2.0.12 以降は、next と prev による二重連結リストになっています。) 空のページブロックはこのキューに並べられる。map は個々のサイズのページグループの割り当て状態を管理しているビットマップ(bitmap)に対するポインタである。bitmap の N ビット目は、ページの N 番目のブロックが空である場合にセットされる。

図表(3.4)では、free_area 構造体が示されている。要素 0 はひとつの空ページ(ページフレーム番号 0 )を持っており、要素 2 は 4 つのページから成る 2 つの空ブロックを持っている。最初の空ブロックは、ページフレーム番号 4 から始まり、次の空ブロックはページフレーム番号 56 から始まっている。

ページの割り当て

Linux は、相棒アルゴリズム ( Buddy algorithm) (脚注 2) を使用することで、ページブロックを効率的に割り当てたり解放したりしている。
[see: __get_free_page(), in mm/linux/page_alloc.c]
ページ割り当てのコードは、ひとつもしくは複数のページから成るブロックを割り当てようとする。ページの割り当ては、大きさとして 2 の n 乗のブロック単位となっている。すなわち、ひとつのブロックに 1 つのページ、2 つのページ、4 つのページ等が割り当てられる。システム内に要求(nr_free_pages > min_free_pages)に応えられるだけの空き空間があれば、割り当てコードは、要求されたサイズのページ数でブロックを作成するために free_area を調べる。 free_area のそれぞれの要素は、該当するサイズのブロックに関するマップを持っていて、割り当て済みもしくは空いているページブロックが参照できるようになっている。たとえば、配列の要素 2 が持つメモリマップでは、4 つのページから成るそれぞれのブロックのどれが割り当て済みであり、どれが空なのかが記録されている。

割り当てアルゴリズムは、まず要求されたサイズのページブロックを探す。それは、 free_area データ構造体のキューにある、 list 要素上から、空のページの連続を調べる。もし要求されたサイズのページブロックでは空きがない場合、次のサイズ(これは要求されたサイズの 2 倍である)のブロックがないか調査する。この過程は、free_area のすべてが調べられるか、ページブロックが見つかるかするまで続けられる。見つかったページブロックが当初の要求よりも大きい場合、適切なサイズになるまで分割される。ブロックは 2 の n 乗のページから成り立つので、この分割プロセスは半分に割るだけの簡単なものである。空ブロックは適当なキュー上に並べられ、割り当てられるページブロックが、呼び出しをしたプロセスに返される。

図表(3.4) free_area のデータ構造

たとえば、図表(3.4)では、2 つのページから成るブロックが要求された場合、 (ページフレーム番号 4 から始まっている) 4 つのページから成る最初のブロックが、2 つのページから成るふたつのブロックに分割される。ページフレーム番号 4 から始まる最初のブロックは、割り当てられたページとして呼び出したプロセスに戻され、ページフレーム番号 6 から始まる二番目のブロックは、free_area 配列の要素 1 上にある 2 つのページから成る空ブロックとしてキュー上に置かれる。

ページの解放

ページブロックの割り付けは、大きな空ページを小さく分割するので、断片化したメモリ(framgment memory)を生じやすい。
[see: free_pages(), in mm/page_alloc.c]
ページを解放するコード(page deallocation code)は、可能なときはいつでも、空のページをより大きなブロックに連結する。実際、ブロックをまとめてより大きなブロックを簡単に作れることを考えると、この(2 の n 乗という)ページブロックサイズには重要な意味がある。

ページブロックが解放されると、同じサイズの近接ブロックもしくは相棒(buddy) ブロックが空かどうかチェックされる。もしそうなら、新しく解放されたページブロックと結合して、一段階大きいサイズの新しい空ブロックを作成する。ふたつのページブロックが結合されてより大きな空のページブロックが形成されるたびに、ページ解放コードは、そのブロックをさらに大きなものにしようとする。このようにして、空のページブロックは、メモリの使用方法として許される限り大きなブロックになっていく。

たとえば、図表(3.4)では、ページフレーム番号 1 が解放されると、すでに解放されていたページフレーム番号 0 と結合される。そして、 2 つのページから成る空ブロックとして free_area の要素 1 上のキューに置かれる。

4.5 メモリマッピング

イメージが実行されるとき、その実行イメージの内容は、プロセスの仮想アドレス空間に置かれなければならない。このことは、実行イメージで使用するためにリンクされた共有ライブラリの場合でも同じである。実行ファイルは実際に物理メモリに置かれるわけではなく、プロセスの仮想メモリにリンクされるだけである。そして、実行中のアプリケーションからそのプログラムの一部が参照されると、実行イメージ内のその部分のイメージがメモリの中に置かれる。あるイメージを、プロセスの仮想アドレス空間にリンクさせるこの仕組みは、メモリマッピング (memory mapping)と呼ばれる。

図表3.5 仮想メモリのエリア

すべてのプロセス仮想メモリは、mm_structデータ構造体で表現される。これには、現在実行中のイメージ(たとえば、 bash)に関する情報が含まれると同時に、いくつかの vm_area_struct データ構造体へのポインタも含まれる。 vm_area_struct データ構造体には、その仮想メモリ領域の始点と終点、そのメモリへのプロセスのアクセス権、およびそのメモリに対する一連の操作ルーチンが含まれている。これらの操作ルーチンは、Linux がこの仮想メモリの領域を操作する際に使わなければならない一連のルーチンである。たとえば、仮想メモリ操作のひとつに訂正処理があり、それはプロセスが仮想メモリにアクセスしようとしたが、 (ページフォルトによって)その仮想メモリが実際には物理メモリ上にないことが分かった時になされる。この操作は、nopage 操作である。 nopage 操作が利用されるのは、Linux のデマンドページングにより実行イメージのページが物理メモリ内にページを割り当てられるときである。

実行イメージがプロセス仮想アドレスにマップされるとき、vm_area_struct データ構造が一組生成される。 vm_area_struct データ構造体はそれぞれ実行イメージの一部を表している。実行コード、初期化されたデータ(変数)、初期化されないデータ等につき、ひとつづつの構造体が生成される。Linux はいつくかの標準的な仮想メモリ操作をサポートしているので、vm_area_struct データ構造体が生成されると、仮想メモリ操作の適切なセットがそれらと結びつけられる。

4.6 デマンドページング

実行イメージがいったんメモリにマップされてプロセス仮想メモリに入ると、イメージの実行開始が可能となる。しかし、そのイメージの最初の部分だけしか物理メモリに入っていないので、すぐに物理メモリ内にない仮想メモリ領域へとアクセスがある。プロセスが、有効なページテーブルエントリを持たない仮想アドレスにアクセスしたとき、プロセッサは Linux にページフォルトの発生を報告する。
[see: handle_mm_fault, in mm/memory.c]
ページフォルトは、そのページフォルトが発生した仮想アドレスと、発生の原因となったメモリアクセスのタイプとの情報を含んでいる。

Linux は、ページフォルトが起こったメモリ領域を示している vm_area_struct 構造体を探す。 vm_area_struct データ構造での検索はページフォルト処理の効率を決定する上で非常に重要なので、それらは、AVL(Adelson-Velskii and Landis)木構造にリンクされている。もし、フォルトが起こった仮想アドレスに関する vm_area_struct データ構造体が存在しない場合、このプロセスは、無効な仮想アドレスにアクセスしたことになる。Linux は、そのプロセスに SIGSEGV シグナルを送り、もしそのプロセスが当該シグナルを処理しない場合は、そのプロセスを終了させる。

次に、Linux は、その仮想メモリ領域のアクセス権限に違反して起こったページフォルトのタイプをチェックする。プロセスが、たとえば読み出ししか許されない領域に書き込みをしようとした場合のように、無効な方法でメモリにアクセスしている場合、そのプロセスにはメモリエラー(memory error)のシグナルも送られる。

Linux がページフォルトが正当なものと判断した場合、ページフォルトに対処しなければならない。
[see: do_no_page(), in mm/memory.c]
Linux は、スワップファイル内のページとディスクの他の場所にある実行イメージの一部とを区別しなければならない。それをするためには、フォルトが起こった仮想アドレスのページテーブルエントリが使用される。

フォルトページのページテーブルエントリが無効だが空でない場合、そのページフォルトは、現在スワップファイルに保存されているページのものである。Alpha AXP のページテーブルエントリの場合、有効ビットは設定されていないが PFN フィールドに 0 でない値が設定されているエントリがある。その場合、PFN フィールドには、スワップのどこに(そしてどのスワップファイルに)当該ページが保存されているのかに関する情報が記されている。スワップファイル内のページを操作する方法は、この章の後の部分で紹介される。

vm_area_struct データ構造体のすべてが、仮想メモリ操作のセットを持っているわけではなく、nopage 操作すらもっていない場合もある。これは、デフォルトでは Linux が、アクセスの問題を解決するために、新しい物理ページを割り付け、そのための有効なページテーブルエントリを作成するようになっているからである。(vm_area_struct に)この仮想メモリ領域に対する nopage 操作が存在する場合、Linux はそのルーチンを使用する。

汎用的な Linux の nopege 操作ルーチンは、メモリにマップされた実行イメージに対して使用されるものなので、その nopage 操作ルーチンは、ページキャッシュを利用して、必要なイメージページを物理メモリに持ってくる。
[see: filemap_nopage(), in mm/filemap.c]

方法はどうあれ、必要なページが物理メモリに置かれた場合は、プロセスページテーブルはアップデートされる。それらのエントリをアップデートするためにはハードウェア固有の処理が必要になるかもしれない。特に、プロセッサがアドレス操作バッファ(Translation Look-aside Buffer, TLB)を利用している場合はそうである。これでようやくページフォルトは処理されたので、フォルトは解除され、プロセスは、仮想メモリアクセスでフォルトを起こした命令の時点から再スタートされる。

4.7 Linux のページキャッシュ

図表3.6 Linux のページキャッシュ

Linux のページキャッシュの役割は、ディスク上のファイルへのアクセス速度を上げることである。メモリにマップされたファイルはページ単位で読み出され、それらのページはページキャッシュに保存される。図表(3.6)では、ページキャッシュが page_hash_table から構成されており、それが mem_map_t データ構造へのポインタの配列となっていることが示されている。
[see: include/linux/pagemap.h]

Linux 内のファイルはそれぞれ VFS inode データ構造で識別される(詳細は、「ファイルシステム」の章で述べる)。VFS inode はシステム上ユニークであり、特定の単一のファイルに関する完全な識別子となる。ページテーブルへのインデックスは、ファイルの VFS inode とそのファイルへのオフセットから導き出される。

メモリにマップされたファイルからページが読み出されるとき、たとえばデマンドページングでページがメモリに戻されるときなどには、ページはページキャッシュから読み出される。ページがキャッシュ内にある場合は、そのキャッシュ内のページを表す mem_map_t データ構造体へのポインタが、ページフォルト処理コードに返される。そうでない場合は、ページは、そのイメージを保存しているファイルシステムからメモリ内へと取り出さる必要がある。その場合、Linux は物理ページを割り付けて、ディスク上のファイルからそのページを読み出す。

要求がなくても、Linux の側でファイル内の次のページを読み出しておくことも可能である。この単一ページの先読みは、もしプロセスがファイル内のページに連続してアクセスしている場合は、そのプロセスのために次のページをメモリ内に待機させることを意味する。

イメージが読み出されて実行されていくと、ページキャッシュはだんだんと大きくなる。必要のなくなったページ、たとえばどのプロセスからもアクセスされなくなったイメージは、キャッシュから削除される。メモリの使用量が増えると、物理ページが不足してくることがある。その場合、 Linux はページキャッシュのサイズを小さくする。

4.8 スワップアウトとページの破棄

物理メモリが少なくなると、Linux のメモリ管理サブシステムは、物理ページを解放するよう努力しなければならない。このタスクは、カーネルスワップデーモン (kernel swap daemon)(kswapd)の仕事である。カーネルスワップデーモンは、カーネルスレッド(kernel thread)という特別なプロセスである。カーネルスレッドは仮想メモリを持たず、そのかわり物理アドレス空間内においてカーネルモードで実行される。このカーネルスワップデーモンは、その役割が単にページをシステムのスワップファイルに書き出すだけでないことからすると、やや命名に難があるといえる。その役割は、システム内で充分な空ページを確保して、メモリ管理システムの操作効率を維持することである。

カーネルスワップデーモン(kswapd)は、起動時にカーネル初期化プロセスにより起動され、カーネルスワップタイマーが定期的に時間切れになるのを待っている。
[see: kswapd(), in mm/vmscan.c]
タイマーが時間切れになると、スワップデーモンはシステムの空ページの数が減りすぎていないかどうかを確認する。kswapdは、free_pages_high と free_pages_low のふたつの変数を使ってページを解放するかどうかを判断する。システム内の空ページの数が free_pages_high よりも多い限り、カーネルスワップデーモンは何もしない。タイマーが切れるまで再び休憩する。このチェックに際して、カーネルスワップデーモンは、スワップファイルに現在書き出されているページ数を考慮に入れる。カーネルスワップデーモンは、その数を、nr_async_pages に保持している。この数は、スワップファイルに書き出されるためにページがキューに入れられたときに増加し、スワップデバイスへの書き込みが完了したときに減少する。free_pages_high と free_page_low とは、システム起動時にセットされ、システム内の物理ページの数と関連付けられる。システム内の空ページの数が free_page_high 以下になるか、free_pages_low 以下にまで落ち込んでしまった場合には、カーネルスワップデーモンは、3 つの方法を使ってシステムで使用されている物理ページの数を減らそうとする。

バッファとページキャッシュのサイズを減らす。
System V 共有メモリページをスワップアウトさせる。
ページをスワップアウトさせて、破棄する。

システムの空ページの数が free_pages_low 以下になっている場合、カーネルスワップデーモンは、次の実行時までに 6 つのページを解放する。でなければ、3 つのページを解放する。上記の方法は、充分なページが解放されるまで順番に繰り返される。カーネルスワップデーモンは、物理メモリを解放するとき最後に使った方法を覚えている。実行の際はいつも、前回の最後に成功した方法を使用してページを解放しようとし始める。

充分な空ページが出来たら、スワップデーモンは、タイマーが切れるまで再び休憩に入る。カーネルスワップデーモンがページを解放した理由が、システム内の空ページの数が free_pages_low を下回ったからであった場合は、その休憩時間は、通常の半分に短縮される。空ページの数が free_pages_low の数を超えてしまえば、カーネルスワップデーモンは通常のタイマー間隔での休憩に戻る。

ページキャッシュとバッファキャッシュのサイズの縮小

ページキャッシュとバッファキャッシュに保存されているページは、解放して free_area 配列に入れるべき有力な候補者である。ページキャッシュには、メモリにマップされたファイルのページが含まれているので、メモリを満杯にしている不要なページが含まれている場合がある。同様に、バッファキャッシュには、物理デバイスに対する読み書きの結果としてのバッファが含まれているので、ここにも必要のないバッファが含まれている場合がある。システム内の物理ページが不足し始めると、これらのキャッシュからページを削除することは相対的に容易になる。ページをメモリからスワップアウトさせる場合と異なり、それらは、物理デバイスへの書き込みを必要としないからである。キャッシュから不要なページをいくつか破棄したとしても、物理デバイスやメモリにマップされたファイルへのアクセスが遅くなる以外には、目立った有害な副作用はない。しかし、もしそれらのキャッシュからページをすべて破棄したとしたら、全プロセスが等しく悪影響を受ける。

カーネルスワップデーモンは、これらのキャッシュを縮小しようとするたびに、 page の配列 mem_map 内のページブロックを調べて、物理メモリから削除できるものがないかどうかを確認する。
[see: shrink_mmap(), in mm/filemap.c]
カーネルスワップデーモンが熱心にスワップ処理をしている場合、すなわちシステムの空ページの数が危険なほど低下している場合には、より大きなサイズのページブロックが調査される。ページブロックの調査は循環的な方法でなされる。すなわち、メモリマップを縮小しようとするたびごとに違うサイズのページブロックが調査される。この方法は、時計の分針に似ていることからクロックアルゴリズム (clock algorithm)と呼ばれ、page の配列 mem_map 全体が、一度に数ページ単位で調査される。

個々のページを調査する際は、そのページがページキャッシュかバッファキャッシュにキャッシュされているかどうか確認される。注意すべきなのは、この時点では共有ページは破棄されないこと、および同時に両方のキャッシュに入っているページは存在しないことである。当該ページがどちらのキャッシュにも入っていない場合、page の配列 mem_map の次のページが調査される。

ページがバッファキャッシュにキャッシュされるのは(あるいは、バッファがページキャッシュにキャッシュされるのは)、バッファの割り付けと解放とをより効率的に行うためである。メモリ縮小コードは調査が終わったページのバッファから、解放しようとする。
[see: try_to_free_buffer, in fs/buffer.c] それらすべてのバッファが解放されると、それらを含むページも解放される。調査されたページが Linux のページキャッシュに入っている場合、それはページキャッシュから削除され解放される。

この作業によって充分なページが解放されたら、カーネルスワップデーモンは、次の定期的呼び出しまで休憩する。解放されたページはどのプロセスの仮想メモリの一部にもなっていなかったので(それらはキャッシュされたページであったので)、どのページテーブルもアップデートされる必要がない。キャッシュされたページが充分に解放されない場合、スワップデーモンは共有ページのいくつかをスワップアウトしようとする。

System V 共有メモリページのスワップアウト

System V 共有メモリとは、プロセス間通信のメカニズムであり、ふたつ以上のプロセスがお互いに情報を交換するために仮想メモリを共有することを許す仕組みである。この方法でどのようにプロセスがメモリを共有するかについては、「プロセス間通信の仕組み」の章で詳細に解説する。今のところ、System V 共有メモリのそれぞれのエリアは、shmid_ds データ構造体により記述されているとだけ述べておく。これには、vm_area_struct データ構造体のリストへのポインタが含まれている。その個々の vm_area_struct データ構造体は、仮想メモリの当該領域を共有するプロセスのものであり、それぞれのプロセスの仮想メモリのどこに System V 共有メモリの領域があるのかを記述するものである。System V 共有メモリのための vm_area_struct データ構造体はそれぞれ、vm_next_shared と vm_prev_shared ポインタを使ってお互いにリンクされている。個々の shmid_ds データ構造体には、ページテーブルエントリのリストが含まれていて、それぞれ共有仮想ページがマップされている物理ページを記述している。

カーネルスワップデーモンは、System V 共有メモリページをスワップアウトする時にもクロックアルゴリズムを使用する。それが実行される際はいつも、どの共有仮想メモリエリアのどのページを最後にスワップアウトしたか、カーネルスワップデーモンは覚えている。それを実現するために、スワップデーモンはふたつのインデックスを使用する。ひとつは、shmid_ds データ構造体のセットへのインデックスであり、もうひとつは、System V 共有メモリの該当エリアに関するページテーブルエントリのリストへのインデックスである。それによって、 System V 共有メモリに対して公正な負担が課されるようになっている。

System V共有メモリの仮想ページに対する物理ページフレーム番号は、該当する仮想メモリエリアを共有するすべてのプロセスのページテーブル内に含まれているので、カーネルスワップデーモンはこれらすべてのページテーブルを書き換えて、該当ページはもはやメモリ内にはなく、スワップファイルに保存されているということを示さなければならない。共有ページはひとつずつスワップアウトされるので、カーネルスワップデーモンは、個々の共有プロセスのページテーブル内のページテーブルエントリを探す。(これは、個々の vm_area_struct データ構造体のポインタを追跡することにより実行される。) もし、その System V 共有メモリエリアに対するプロセスのページエントリーテーブルが有効ならば、スワップデーモンは、それを無効だがスワップアウトされたページテーブルエントリである旨に書き換えて、その(共有)ページのユーザ数カウントをひとつ減少させる。スワップアウトされた System V 共有ページのテーブルエントリのフォーマットには、shmid_ds データ構造体のセットへのインデックスとその System V 共有メモリエリアに対するページテーブルエントリへのインデックスとが含まれる。

共有プロセスのページテーブルが完全に書き換えられてページカウントがゼロになると、共有ページをスワップファイルに書き出すことが可能になる。その System V 共有メモリエリアに対するページテーブルエントリのなかで、shmid_ds データ構造体によって指示されたリスト内に存在するものは、スワップアウトされたページテーブルのエントリ(swapped out page table entry)によって置き換えられる。スワップアウトされたページテーブルのエントリは無効だが、スワップファイルをオープンするためのセットへのインデックスと、そのファイル内でスワップアウトされたページを探すためのオフセットとが含まれている。この情報が使用されるのは、そのページが物理メモリ内に再度戻されるときである。

スワップアウトされたか破棄されたページ

スワップデーモンはシステム内のプロセスを順番に調べて、スワップすべき有力候補がいないかどうかを探す。
[see: swap_out(), in mm/vmscan.c]
候補者とは、スワップ可能で(不可能なプロセスもある)、メモリ内からスワップか破棄することが可能なひとつ以上のページを持っているプロセスである。ページが物理メモリからスワップアウトされてシステムのスワップファイルに入れられるのは、ページ内のデータがスワップ以外の方法では元に戻せない場合だけである。

実行イメージの内容の多くはそのイメージのファイルからメモリ内に置かれているので、その内容の再読み出しは簡単に実行できる。たとえば、あるイメージの実行命令は、そのイメージによって修正されることはないので、それがスワップファイルに書き込まれることは決してない。それらのページは単に破棄されるだけである。プロセスから再度参照される時は、実行イメージからメモリ内に戻せばいいからである。

スワップすべきプロセスが見つかったら、スワップデーモンはそのプロセスの仮想メモリ領域を走査して共有されたりロック(lock)されたりしていないエリアを探す。 Linux は、選択したプロセスのスワップ可能なすべてのページをスワップするわけではない。むしろ、ごく少数のページだけを削除する。メモリ内でロックされている場合、ページはスワップも破棄もできない。
(原注: この操作は、当該プロセスの mm_struct 上でキューイングされた vm_area_struct 構造体のリストにある mv_next ポインタを順に検査することで実行される。)

Linux のスワップアルゴリズムは、ページエイジング(page aging)を使っている。
[see: swap_out_vma(), in mm/vmscan.c]
ページはそれぞれ(mem_map_t 構造体の中に) カウンタを持っていて、それによってカーネルスワップデーモンにページがスワップされるべきかどうかを伝えている。ページが使用されなかったりアクセスによって若返らない場合に、ページは歳を取る。スワップデーモンは高齢のページだけをスワップアウトさせる。ページを最初に割り付けるときのデフォルトの操作では、最初に 3 の寿命を与える。アクセスがあるたびに、年齢は 3 から最大 20 まで上がる。カーネルスワップデーモンが実行されると、そのたびにページを加齢し、その年限をひとつずつ引いていく。こうしたデフォルトの操作は変更可能であり、それゆえ、設定値(と、その他のスワップに関係した情報)は、swap_control データ構造体に保存されている。

ページの寿命が尽きたら(age=0)、スワップデーモンはさらにその処理を進める。修正されているページ(dirty page)は、スワップアウトすることができる。Linux は、 PTE 内のアーキテクチャに固有のビットを使ってそれを区別する。 ( 図表(3.2) 参照) しかし、dirty page がすべてスワップファイルに書き出される必要はない。あらゆるプロセスの仮想メモリ領域は、それ自身に必要なスワップ操作が指定されているかもしれず(それは、vm_area_struct 内の vm_ops ポインタで示される)、そこでの方法が利用されるからである。そうでない場合、スワップデーモンは、ページをスワップファイルに割り付け、スワップデバイスに書き出す。

スワップアウトされたページのページテーブルエントリは、無効とマークされたエントリによって置き換えられるが、そのエントリには、ページのスワップファイル内の位置に関する情報が含まれている。その情報は、スワップファイル内のどこにページが保存されているかを表すオフセット値と、どのスワップファイルが使用されたかを示す指示子から成る。どのようなスワップメソッドが使用された場合でも、もとの物理ページは解放され、 free_area の中に入れられる。内容の変更されていない(あるいは、修正されていない(not dirty))ページは、破棄されて、再利用のために free_area に入れられる。

スワップ可能なプロセスのページが、充分な数だけスワップアウトされるか破棄された場合、スワップデーモンは再度スリープする。次に起きるときは、システム内の次のプロセスを対象として考慮する。この方法によって、スワップデーモンはシステムがバランスを取り戻すまで、プロセスの物理ページを少しずつ解放していく。この方法は、プロセス全体をスワップアウトするよりもずっと公平である。

4.9 スワップキャッシュ

ページをスワップファイルに移す際、Linux は必要がなければページを書き込まない。あるページがスワップファイルと物理メモリの両方に存在するときがある。そのようなことが起こるのは、スワップされてメモリから削除されていたページがプロセスに再度アクセスされたことでメモリに戻った場合である。メモリにあるページが書き込みを受けていない限り、スワップファイルにあるページのコピーは有効なままである。

Linux はそのようなページを監視するためにスワップキャッシュを使う。スワップキャッシュはページテーブルエントリのリストであり、エントリはシステム上の物理ページごとに存在する。これは、スワップアウトしたページのページテーブルエントリであり、そのページがどのスワップファイルに保存されているかということと、そのスワップファイル内での位置とが記されているものである。スワップキャッシュエントリがゼロでない場合、それは、そのページがスワップファイル内にあり、しかもそれが変更されていないということを表している。ページの中味がその後で (書き込みをされて)変更された場合、そのエントリはスワップキャッシュから削除される。

Linux が物理ページをスワップファイルにスワップアウトする必要がある場合、スワップキャッシュをまず調べる。スワップキャッシュにそのページ用の有効なエントリがあるなら、そのページをスワップファイルに書き出す必要はない。なぜなら、メモリ内のそのページは、スワップファイルから最後に読み出されて以来変更されていないからである。

スワップキャッシュのエントリはスワップアウトされたページに関するページテーブルのエントリである。それらは無効とマークされているが、どのスワップファイルのどこでそのページが見つかるかを Linux に知らせる情報を含んでいる。

4.10 スワップのページイン

書き込みをされてスワップファイルに保存されたページが再度必要となることがある。たとえば、アプリケーションが仮想メモリのある領域に書き込みをしたいのだが、その内容が物理ページからスワップアウトされていた場合などである。物理メモリ上にない仮想メモリのページにアクセスがあった場合、ページフォルトが起こる。ページフォルトとは、プロセッサがオペレーティングシステムにシグナルを送って、仮想アドレスを物理アドレスに変換できないことを伝えることである。この場合、原因は、仮想メモリの該当ページの情報を記しているページテーブルのエントリが、ページがスワップアウトされる際に無効とマークされるからである。プロセッサはその仮想アドレスを物理アドレスに変換できないので、制御をオペレーティングシステムに手渡して、仮想アドレスがフォルトを起こしたこととそのフォルトの理由とを伝える。この情報のフォーマットとプロセッサがオペレーティングシステムに制御を渡す方法とは、プロセッサ固有のものである。
[see: do_page_fault(), in arch/i386/mm/fault.c]

プロセッサ固有のページフォルト処理コードは、まず必要な vm_area_struct データ構造を探さなければならない。 vm_area_structは、仮想メモリのエリアを記述したものであり、そのフォルトが起きた仮想メモリアドレスを含んでいるからである。フォルト処理コードは、それらの構造体を検索し、フォルトを起こした仮想アドレスを含むものを見つけだす。これらは、決して長時間掛かってはいけない(time critical) コードや処理であるので、vm_area_struct 構造体は、検索時間が最短になるように並べられている。

プロセッサ固有の動作を適切に処理し、フォルトが起きた仮想アドレスが有効な仮想メモリ領域にあることが分かった場合、その後のページフォルト処理は、Linux が稼働するどのプロセッサにも汎用的で適用可能なものとなる。
[see: do_no_page(), in mm/memory.c]
汎用のページフォルト処理コードは、フォルトを起こした仮想アドレスのページテーブルエントリを探す。探し出したページテーブルエントリがスワップアウトされたページのものであった場合、Linux はページを物理メモリに戻さなければならない。スワップアウトされたページに対するページテーブルのエントリはプロセッサ固有のものだが、すべてのプロセッサはそれらのページを無効とマークしてあり、そのページテーブルエントリにはスワップファイル内で該当ページを見つける際に必要な情報が書き込まれている。Linux はこの情報を使って、そのページを物理メモリに呼び戻す。
[see: do_swap_page(), in mm/memory.c]

この時点で、Linux は、フォルトが起こった仮想アドレスを知っており、該当ページがどこにスワップアウトされているかに関する情報を含むページテーブルエントリを持っている。vm_area_struct 構造体にはあるルーチンへのポインタが含まれている場合があり、そのルーチンは、その vm_area_struct 構造体で記述している仮想メモリ領域の任意のページを物理メモリへと戻す処理をする。これは、スワップイン(swapin)操作と呼ばれる。
[see: shm_swap_in(), in ipc/shm.c]
その仮想メモリエリアにスワップイン処理ルーチンが存在する場合、Linux はそのルーチンを使用する。これは実際、スワップアウトされた System V 共有メモリページが処理される方法でもある。スワップアウトされた System V 共有ページのフォーマットは通常のスワップアウトされたページのフォーマットとは少し異なるので、それには特別な処理方法が必要とされるからである。しかし、そうしたスワップイン処理ルーチンが存在しない場合もあるので、その際には、Linux は、そのページが特別な処理を必要としない通常のページであると推定する。
[see: swap_in(), in mm/page_alloc.c]
そして、空の物理ページを割り当て、スワップファイルからスワップアウトされたページを読み出す。ページがスワップファイルのどこに(およびどのスワップファイルに)あるかを示す情報は、無効とマークされたそのページテーブルエントリから取得される。

ページフォルトを発生させたアクセスが書き込みアクセスでない場合、ページはスワップキャッシュにそのまま残され、そのページテーブルエントリも書き込み可能とはマークされない。その後、そのページへの書き込みアクセスが発生すると、その時点で別なページフォルトが生じ、該当するページ dirty とマークされ、そのエントリはスワップキャッシュから削除される。そのページが書き込みされずに、再度スワップアウトされる必要が生じた場合、そのページは既にスワップファイルに存在するので、Linux はページをあらためてスワップファイルに書き込みせずに済ませることができる。

ページがスワップファイルから取ってこられるきっかけを作ったアクセスが書き込み操作であった場合、そのページはスワップキャッシュから削除され、そのページテーブルエントリは、dirty かつ書き込み可能であるとマークされる。

(脚注1)紛らわしいことに、この構造体は、ページ構造体とも呼ばれている。
(脚注2)ここに参考文献を置くこと。

次のページ前のページ目次へ