The Linux Kernel: ネットワーク

11. ネットワーク

ネットワーキングと Linux とはほとんど同義語である。本当の意味で、Linux はインターネットもしくは World Wide Web(WWW) の産物である。開発者やユーザたちはウェブを使って情報やアイデアやコードを交換しているし、Linux そのものが組織におけるネットワークへの要求を満たすために利用されている。この章では、TCP/IP と総称されるネットワークプロトコルを Linux がどのようにサポートしているかを解説する。

TCP/IP プロトコルが設計されたのは、ARPANET に接続されたコンピュータ間での通信をサポートするためであった。合衆国政府によって設立されたアメリカの研究用ネットワークである ARPANET は、ネットワークの基本概念を作り出したパイオニアであり、その中には、パケットスイッチング(packet switching)や、あるプロトコルが別のプロトコルのサービスを利用するというプロトコル層(protocol layer)といった概念がある。 ARPANET は 1988 年に解散されたが、その後継者(NSF( 脚注 1) NET やインターネット)はそれ以上のものに成長した。今日 World Wide Web と呼ばれるものは、ARPANET から発展しており、それ自体が TCP/IP プロトコルによってサポートされている。Unix は ARPANET 上で広範囲に使用されが、最初にリリースされたネットワークバージョンの Unix は 4.3 BSD であった。Linux におけるネットワークの実装は、(いくつかの拡張機能とともに)BSD ソケットと TCP/IP 全般をサポートしている点で、4.3 BSD をモデルとするものである。BSD ソケットというプログラミングインターフェイスが採用されたのは、その人気ゆえであり、Linux とその他の Unix プラットフォーム間でのアプリケーションの移植を容易にするためであった。

11.1 TCP/IP ネットワーキングの概要

この章では、TCP/IP ネットワーキングにおける基本原則を概説する。しかし、本書のテーマからして、徹底した記述というわけではない。 IP ネットワークでは、すべてのマシンが IP アドレスを割り当てられる。これはマシンをユニークに識別する 32 ビットの数である。WWW は広大で今も成長過程にあり、それに接続された IP ネットワークとすべてのマシンはユニークな IP アドレスを割り当てられなければならない。 IP アドレスは、たとえば 16.42.0.9 のようにドットで区切られた 4 つの数字で表現される。この IP アドレスは実際には、ネットワークアドレスとホストアドレスのふたつの部分に分かれる。( IP アドレスにはいくつかのクラスがあるので) それらの部分のサイズは定まっていないが、仮に 16.42.0.9 を例に取り、ネットワークアドレスを 16.42 とし、ホストアドレスを 0.9 であるとする。ホストアドレスはさらにサブネットとホストアドレスとに再分割できる。ここでも 16.42.0.9 を例に取ると、サブネットアドレスは 16.42.0 であり、ホストアドレスは 9 となるだろう。 IP アドレスの細分化により、組織はネットワークを再分割できる。たとえば、16.42 が ACME コンピュータ会社のネットワークアドレスであるとすると、 16.42.0 はサブネット 0 であり、16.42.1 はサブネット 1 となる。これらのサブネットは、異なる建物の中にあり、おそらく専用線かもしくは無線によって接続されているだろう。IP アドレスはネットワーク管理者によって割り当てられるので、IP サブネットを持つことはネットワーク管理を分散するよい方法である。IP サブネットの管理者は、その IP サブネットワーク内で自由に IP アドレスを割り当てることができるからである。

しかし、一般的に IP アドレスは覚えるのがやや困難である。名前のほうがより簡単であり、linux.acme.com のほうが 16.42.0.9 よりもずっと覚えやすい。だが、ネットワーク名を IP アドレスに変換するには多少の仕組みが必要となる。そうした名前は、/etc/hosts ファイル内で静的に指定できるが、Linux は、 DNS (Domain Name System) サーバに問い合わせて、名前を IP アドレスに変換することもできる。その場合、ローカルホストはひとつ以上の DNS サーバの IP アドレスを知る必要があり、それは /etc/resolv.conf で指定される。

ウェブページを読む時などに他のマシンに接続する際はいつも、相手のマシンとのデータ交換に IP アドレスが使用される。このデータは IP パケットに含まれていて、個々のパケットは、送信元の IP アドレスと送信先の IP アドレス、チェックサムその他の情報を含んだ IP ヘッダを持っている。チェックサムは IP パケットのデータから導き出されるもので、それによって、おそらく電話回線上のノイズなどで、転送中に IP パケットが壊れなかったかどうかを IP パケットの受信者が判断できるようになる。アプリケーションによって送信されるデータは、処理しやすいように、より小さなパケットへと分割される。IP データパケットのサイズは接続メディアによって異なり、イーサネットパケットは一般に PPP パケットよりもサイズが大きい。送信先のホストはそのデータパケットを組み立て直して、それを受信すべきアプリケーションに渡さなければならない。多くのグラフィックイメージを含むウェブページに比較的低速なシリアル回線経由でアクセスする場合、このデータの分割と統合の過程を視覚的に理解することができる。

同一の IP サブネットに接続されたホスト間ではお互いに直接 IP パケットを送信することができるが、それ以外のすべてのパケットは特別なホストであるゲートウェイ (gateway)に送信される。ゲートウェイ(あるいはルータ(router))は、複数の IP サブネットに接続されていて、あるサブネット上で受信した IP パケットが、別のサブネット宛であった場合に、その IP パケットを送信先に向けて送りなおす。たとえば、サブネット 16.42.1.0 と 16.42.0.0 がゲートウェイによって接続されている場合、サブネット 0 からサブネット 1 へと送信されるパケットは、ルーティングが可能なゲートウェイに送られなければならない。ローカルホストはルーティングテーブルを設定し、それによって正しいマシンに IP パケットを経路付けすることができる。すべての IP の送信先に関して、ルーティングテーブル内にひとつのエントリがある。Linux は、それを参照することで、どのホストに送ればよいかを判断して、IP パケットを宛先に届けている。これらのルーティングテーブルは、複数のアプリケーションがネットワークを使用したり、ネットワークトポロジーが変更された場合など、時間の経過によって動的に変化する。

図表(10.1) TCP/IP プロトコル層

IP(Internet Protocol) プロトコルは、他のプロトコルがデータを運ぶために利用する、転送のための層(layer)である。TCP (Transmission Control Protocol)は、エンドシステム間における信頼性のあるプロトコルで、自己のパケットを送受信するために IP を使用する。 IP が独自のヘッダを持つように、TCP も独自のヘッダを持つ。TCP はコネクション (connection)に基づくプロトコルなので、両端のアプリケーションは、間に多くのサブネットワークやゲートウェイ、ルータがある場合でも、単一の仮想的コネクションによって接続される。TCP はふたつのアプリケーション間で信頼性をもってデータの受け渡しを行うので、データの喪失や重複が生じないことが保証される。TCP が IP を利用してパケットを転送するとき、IP パケット内に含まれるデータは TCP パケットそのものである。個々の通信ホスト上で IP 層は、IP パケットの送受信に関して責任を持つ。 UDP (User Datagram Protocol)も IP 層を使用して自分のパケットを転送するが、 TCP と異なり、UDP は信頼性のあるプロトコルではなく、単にデータグラム(datagram) サービスを提供するだけである。このように、IP は、他のプロトコルによって利用されている。したがって、IP パケットを受け取った際、受信した IP 層は、どの上位プロトコル層に対してその IP パケットに含まれるデータを渡すべきか認識できなければならない。これを簡単に実現するために、すべての IP ヘッダには、プロトコル識別子が記述された 1 バイトの情報がある。TCP が IP 層に IP パケットの送信を依頼するとき、IP パケットのヘッダには、そのパケットが TCP パケットを含むものであることを伝える情報が記述される。受信した IP 層は、そのプロトコル識別子を使用して、どの上位層(この場合は、 TCP)に受信したデータを渡すべきかを判断する。また、アプリケーションが TCP/IP 経由で通信を行うとき、それらは相手方の IP アドレスだけでなく、アプリケーションのポート番号をも指定しなければならない。ポート番号はアプリケーションをユニークに特定するものであり、標準的なネットワークアプリケーションは標準のポート番号を使用する。たとえば、ウェブサーバは 80 番ポートを使用している。これら登録済みのポート番号は、/etc/services ファイルで確認できる。

このようなプロトコルの多層構造は、TCP, UDP や IP だけに留まらない。すなわち、IP プロトコル自身が様々な異なる物理メディアを使用して IP パケットを他の IP ホストに転送している。したがって、それらの物理メディア自体も独自のプロトコルヘッダを付け加えている。イーサネット層がその一例であり、他にも PPP 層や SLIP 層などがある。イーサネットのネットワークでは、多くのホストを同時に単一の物理ケーブルに接続することが可能である(訳注: 10BASE5 など。現在、単一の物理ケーブルが使われることは少なくなりました)。送信されたイーサネットフレーム(frame)は、そのケーブルに接続されたすべてのホストから見ることが出来るので、個々のイーサネットデバイスはユニークな(ハードウェア)アドレスを持たなければならない。特定の(ハードウェア)アドレスに対して送信されたイーサネットフレームはそのアドレスのホストに受信され、ネットワークに接続されたそれ以外のすべてのホストからは無視される。こうしたユニークなアドレスはイーサネットデバイスの製造時にデバイスに組み込まれていて、通常、イーサネットカードの SROM( 脚注2) に保存されている。イーサネットのアドレスは 6 バイト長で、たとえば、08-00-2B-00-49-A4 といったものになっている。イーサネットのアドレスにはマルチキャスト( 訳注: 用語集(multicast))の目的に予約されたものがあり、そうした送信先アドレスを設定されて送信されたイーサネットフレームは、そのネットワーク上のすべてのホストで受信される。イーサネットフレームは、多種のプロトコルを(データとして)運ぶことができるので、 IP パケットの場合と同様に、イーサネットフレームのヘッダにはプロトコル識別子が含まれている。これによって、イーサネット層は IP パケットを正確に受信して、それを IP 層に渡すことができる。

イーサネットのような(ケーブルに繋がったすべてのホストにフレームが流れる) マルチコネクションのプロトコル経由で IP パケットを送信するためには、IP 層は、 IP ホストのイーサネットアドレスを知らなければならない。というのも、IP アドレスは単にアドレス割り当ての概念にすぎず、イーサネットデバイス自体が独自の物理アドレスを持っているからである。すなわち、IP アドレスはネットワーク管理者の意志によって割り当てや再割り当てが可能であるのだが、ネットワークハードウェアは、自分の物理アドレスが付加されたイーサネットフレームか、あるいはすべてのマシンで受信すべき特別なマルチキャストアドレスにしか反応しないからである。 Linux は、ARP (Address Resolution Protocol)を使用して、マシンが、IP アドレスをイーサネットアドレスのような実際のハードウェアアドレスに変換できるようにしている。ある IP アドレスに関連付けられたハードウェアアドレスを知ろうとするホストは、変換したい IP アドレスを含めた ARP リクエストパケットを、マルチキャストアドレスを付けてネットワーク上のすべてのノード(node)に送信する。その IP アドレスを持つターゲットホスト(target host)は、自分の物理アドレスを含めた ARP リプライによってそれに応答する。ARP はイーサネットデバイスだけでしか利用できないわけではなく、 FDDI などのそれ以外の物理メディアに対しても IP アドレスの解決が可能である。 ARP が利用できないネットワークデバイスはそれが出来ない旨マークされているので、その場合、Linux がARP を試すことはない。ARP の逆の機能も存在しており、リバース ARP もしくは RARP は、ハードウェアアドレスを IP アドレスに変換する。これはゲートウェイによって利用されるもので、ゲートウェイは、リモートネットワークにある IP アドレスが書かれた ARP リクエストに応答する際にそれを使用する。

11.2 Linux の TCP/IP ネットワーク層

図表(10.2) Linux のネットワーク層

ネットワークプロトコル自体が多層構造を持つのと同様に、図表(10.2)では、Linux がインターネットプロトコルアドレスファミリ(address family)をソフトウェアの多層構造として実装していることが示されている。BSD ソケットは、BSD ソケットだけに関する汎用のソケット管理ソフトウェアとしてサポートされている。 BSD ソケットをサポートするのが INET ソケット層で、これは、IP ベースの TCP や UDP プロトコルのためのエンドポイント通信を管理する。 UDP(User Datagram Protocol)はコネクション管理を行わないプロトコルであるが、TCP(Transmission Control Protocol)は信頼性のある一対一(end to end)のプロトコルである。UDP パケットが送信されるとき、Linux はそれが安全に送信先に届いたかどうか分からないし、気にもしない。TCP パケットは番号付けされているので、TCP コネクションの両方のエンド(end, 端)は、送信されたデータが正しく受信されたかどうかを確認できる。 IP 層には、インターネットプロトコル(IP)を処理するためのコードが含まれている。このコードは、受信したデータの IP ヘッダを取得し、その IP パケットが TCP か UDP のどちらかの上位層に宛てたものかを判断して、適切な上位層にルーティングする。IP 層の下で Linux のネットワーキングをサポートしているのが、PPP やイーサネットといったネットワークデバイスである。ネットワークデバイスとは必ずしも物理デバイスを意味するものではない。ループバックデバイス(loopback device)などは純粋なソフトウェアデバイスだからである。 mknod で作成される Linux の標準的なデバイスファイルとは異なり、ネットワークデバイスはその基礎となるソフトウェアが物理デバイスを検出し初期化した場合にだけ現れる。カーネルに適切なイーサネットデバイスドライバを組み込んだ場合のみ、/dev/eth0 を見ることができる。ARP プロトコルは、IP 層とハードウェアアドレス解決のために ARP をサポートする下位のプロトコルとの間に位置している。

11.3 BSD ソケットインターフェイス

BSD ソケットインターフェイスは、汎用インターフェイスであり、ネットワークの様々な形態をサポートするだけでなく、プロセス間通信の仕組みでもある。ソケットは通信リンクの一方のエンド(end, 端)を記述するもので、ふたつの通信プロセスが個別にソケットを持ち、両者の間の通信リンクのそれぞれのエンドを記述する。ソケットはパイプの特殊なケースであると考えることも可能だが、パイプと異なり、ソケットは保持できるデータ容量に制限がない。Linux は、いくつかのソケットクラス (socket class)をサポートしており、それらはアドレスファミリ(address family)と呼ばれている。これは、個々のクラスが独自の通信方式を持っているからである。 Linux は次のようなアドレスファミリもしくはドメイン(domain)をサポートしている。

UNIX

Unix ドメインソケット。

INET

インターネットアドレスファミリ(internet address family)は、 TCP/IP 経由の通信をサポートしている。

AX25

アマチュア無線 X25。

IPX

Novell IPX。

APPLETALK

Appletalk DDP

X25

X25。

アドレスファミリもしくはドメインには、いくつかのソケットタイプ(socket type) があり、それらはコネクションをサポートするサービスのタイプを表している。すべてのサービスタイプをサポートしていないアドレスファミリもある。 Linux BSD ソケットは次のいくつかのソケットタイプをサポートしている。

Stream

このソケットは、双方向で順次送達確認の行われる信頼性のあるデータストリーム (data stream)であり、通信途上でのデータの喪失や破壊、複製が生じないよう保証されたものである。Stream ソケットは、インターネット(INET)アドレスファミリの TCP プロトコルによってサポートされている。

Datagram

このソケットは、双方向でのデータ通信を提供するが、stream ソケットと異なり、メッセージが到達する保証はない。到達した場合でも、順番通り届いたか、さらに複製や破壊はないかといったことは保証されない。このタイプのソケットは、インターネットアドレスファミリの UDP プロトコルによってサポートされている。

Raw

これは、プロセスが、下位層のプロトコルに直接(それゆえ、生(raw))アクセスするものである。これを使うと、たとえば、raw ソケットをイーサネットデバイスに対してオープンし、生(raw)の IP データトラフィックを見ることが可能になる。

Reliable Delivered Messages

これは、datagram ソケットと非常に類似しているが、データの到着は保証される。

Sequenced Packets

これは、データパケットサイズが固定されていることを除いて、stream パケットと同じである。

Packet

これは、標準的な BSD ソケットタイプではない。Linux 固有の拡張であり、これを使うと、プロセスがデバイスレベルで直接パケットにアクセスできる。

ソケットを利用して通信を行うプロセスは、クライアントサーバモデル(client server model)を使用する。サーバはサービスを提供し、クライアントがそのサービスを利用する。その典型がウェブサーバであり、サーバがウェブページを提供し、クライアント、もしくはブラウザがそのページを読み出す。ソケットを使うサーバは、まずソケットを作成し、それに名前を結びつける(bind)。その名前のフォーマットはそのソケットのアドレスファミリに依存し、事実上サーバのローカルアドレスになる。ソケットの名前もしくはアドレスは、sockaddr データ構造体を使って指定される。 INET ソケットは、IP ポート番号をそれに結びつける。登録済みポート番号は、 /etc/services ファイルで見ることができる。たとえば、ウェブサーバのポート番号は 80 である。アドレスをソケットに結びつけたら、サーバは、そのアドレスを指定したコネクションリクエストが来るまで待機(listen)している。リクエストの発信者であるクライアントはソケットを作成し、サーバのターゲットアドレスを指定して、ソケット上でコネクションリクエストを出す。INET ソケットの場合、サーバのアドレスは、その IP アドレスとポート番号である。入って来たリクエストは、様々なプロトコル層を上昇して、サーバの待機中(listening)のソケット上で(処理されるのを)待つ。サーバが入って来たリクエストを受信した場合、サーバは、それを受け入れる(accept)か拒絶するかのいずれかを行う。リクエストが受け入れられる場合、サーバは受け入れるための新しいソケットを作成しなければならない。入って来るコネクションリクエストのために、いったん待機状態(listening)に入ったソケットは、コネクションをサポートするために使用することはできない。コネクションが確立されたら、両者は自由にデータの送受信ができる。最後に、それ以上コネクションが必要なくなったとき、コネクションは遮断(shutdown)できる。その際、転送中のデータパケットがあっても正しく処理されるよう注意を払う必要がある。

BSD ソケット上での操作が厳密に何を意味するかは、その基礎となるアドレスファミリによって異なる。TCP/IP コネクションの設定は、アマチュア無線 X.25 コネクションの設定とは非常に異なる。仮想ファイルシステムの場合のように、Linux は、BSD ソケット層(layer)を使ってソケットインターフェイスを抽象化している。 BSD ソケット層側は、アプリケーションプログラムに対する BSD ソケットインターフェイスと関係付けられ、アプリケーション側は、アドレスファミリごとに独立した固有のソフトウェアによりサポートされている。カーネルに組み込まれたアドレスファミリは、カーネルの初期化時に、BSD ソケットインターフェイスと伴に登録される。その後、アプリケーションが BSD ソケットを作成して使用する場合、BSD ソケットとそれがサポートするアドレスファミリとの間で関連付けがなされる。この関連付けは、データ構造体とアドレスファミリ固有のサポートルーチンとをクロスリンクすることにより実現される。たとえば、アドレスファミリ固有のソケット作成ルーチンがある場合、アプリケーションが新規にソケットを作成しようとする際には、BSD ソケットインターフェイスは、そのルーチンを使用してソケットを作成する。

一般に、カーネル設定の際には、いくつものアドレスファミリとプロトコルがビルドされ、protocols 配列に組み込まれる。それらはそれぞれ、INET といった名前とその初期化ルーチンのアドレスとによって表現される。ブート時にソケットインターフェイスが初期化されるとき、個々のプロトコル初期化ルーチンが呼び出される。ソケットアドレスファミリにとって、これは、一組のプロトコル操作を登録することを意味する。これは、一組のルーチンであり、それぞれがアドレスファミリ固有のプロトコル操作を実行する。登録されたプロトコル操作ルーチンは、pops 配列に保存されるが、それは proto_ops データ構造体へのポインタの配列である。
[see: include/linux/net.h]
proto_ops データ構造体は、アドレスファミリタイプと、アドレスファミリ固有のソケット操作ルーチンに対する一連のポインタから構成されている。 pops 配列は、アドレスファミリ識別子によるインデックスが付けられていて、たとえば、インターネットアドレスファミリの識別子(AF_INET)は 2 である。

図表(10.3) Linux BSD ソケットデータ構造体

11.4 INET ソケット層

INET ソケット層は、TCP/IP を含むインターネットアドレスファミリをサポートするものである。上記で説明したように、これらのプロトコルは多層構造になっていて、ひとつのプロトコルが別のプロトコルのサービスを利用する。 Linux の TCP/IP のコードとデータ構造はその多層構造を反映している。BSD ソケット層に対する INET ソケット層のインターフェイスは、一連のインターネットアドレスファミリのソケット操作ルーチンを経由するものであり、Linux は、ネットワークの初期化時にそれらのルーチンを BSD ソケット層と伴に登録する。それらは、登録された他のアドレスファミリと一緒に pops 配列に保存される。BSD ソケット層は、登録済みの INET proto_ops データ構造体から、INET 層ソケットをサポートするルーチンを呼び出して操作を実行する。たとえば、アドレスファミリを INET と指定した BSD ソケット作成リクエストは、その基礎にある INET ソケット作成関数を使用する。 BSD ソケット層は、それらの個々の操作をする際に、BSD ソケットを表す socket データ構造体を INET 層に渡す。 BSD ソケットが TCP/IP 固有の情報でごちゃごちゃにならないように、INET ソケット層は、独自のデータ構造体である sock を使用し、この構造体を BSD ソケット層の socket データ構造体にリンクする。
[see: include/net/sock.h]
このリンク関係は、図表(10.3)で示されている。 INET ソケット層は sock データ構造体を BSD socket データ構造体にリンクする際、BSD socket の dataポインタを使用する。これは、それ以降の INET ソケットの呼び出しで、簡単に sock データ構造体が取り出せることを意味する。 sock データ構造体のプロトコル操作ルーチンへのポインタは、その構造体作成時に設定されるが、設定の内容はリクエストされたプロトコルによって異なる。 TCP/IP がリクエストされた場合、sock データ構造体のプロトコル操作ルーチンへのポインタは、TCP コネクションに必要な TCP プロトコル操作ルーチンのセットをポイントする。

BSD ソケットの作成

システムコールで新規ソケットを作成する際は、アドレスファミリ、ソケットタイプ、プロトコルに関する識別子を渡す。
[see: sys_socket(), in net/socket.c]
まず、リクエストされたアドレスファミリを使って、pops 配列内に合致するアドレスファミリがあるかどうか検索される。たとえば、特定のアドレスファミリがカーネルモジュールとして実装されている場合は、処理を継続する前に kerneld デーモンによって該当するモジュールがロードされることになる。新規の socket データ構造体が割り当てられて、 BSD ソケットが表現される。実際、socket データ構造体は、物理的には VFS inode データ構造体の一部なので、socket の割り当ては、 VFS inode の割り当てを意味する。これは奇妙に思われるかもしれないが、ソケットは、通常ファイルの操作と同じ方法で操作され得ることを考えてほしい。すべてのファイルが VFS inode データ構造体によって表現されるので、ファイル操作をサポートするには、BSD ソケットは VFS inode データ構造体によっても表現されなければならないのである。

新規に作成された BSD socket データ構造体には、アドレスファミリ固有のソケットルーチンへのポインタが含まれていて、このルーチンは、pops 配列から取り出された proto_ops データ構造体に設定される。そのタイプは、リクエストされたソケットタイプ、すなわち SOCK_STREAM, SOCK_DGRAM 等に設定される。アドレスファミリ固有の作成ルーチンは、proto_ops データ構造体に保存されたアドレスを使用して呼び出される。

未使用のファイル記述子が、カレントプロセスの fd 配列から割り当てられて、それがポイントする file データ構造体が初期化される。この際に同時に為される処理として、そのファイル操作ポインタのポイント先が、 BSD ソケットインターフェイスによってサポートされる BSD ソケットファイル操作ルーチン群へと設定される。それ以後の何らかの操作は、ソケットインターフェイスへと誘導され、ソケットインターフェイスがさらにアドレスファミリ操作ルーチンを呼び出すことで、それがサポートするアドレスファミリへと誘導される。

アドレスを INET BSD ソケットに bind する

入って来るインターネットコネクションリクエストを待機(listen)するためには、個々のサーバが INET BSD ソケットを作成して、それにアドレスを結びつけ(bind) なければならない。bind 操作の大部分は、その基礎にある TCP と UDP プロトコル層のサポートを受けた INET ソケット層内部で処理される。アドレスを結びつけ(bind)られたソケットは、それ以外の通信には使用できない。これは、ソケットの状態(state)が TCP_CLOSE でなければならないことを意味する。sockaddr 構造体から bind 操作ルーチンに渡される情報の中には、結びつけ(bind)られるべき IP アドレスと、オプションとしてポート番号がある。通常、bind された IP アドレスは、ネットワークデバイスに割り当てられたものであり、そのデバイスは INET アドレスファミリをサポートするもので、そのデバイスのインターフェイスは起動されていて使用可能でなければならない。そのインターフェイスが現在アクティブであるかを確認するには、ifconfig コマンドを使用すればよい。 IP アドレスは、アドレス(のビット)をすべて 1 にするか、すべて 0 にするかいずれかによって、IP ブロードキャストアドレス( 訳注:broadcast address)にすることもできる。それは特別なアドレスで、「全員に送信」( 脚注3)することを意味する。マシンが透過的なプロキシかファイアウォールである場合、IP アドレスの指定を任意の IP アドレスとしても構わないが、スーパーユーザの権限を持ったプロセスだけが任意の IP アドレスを結びつけ(bind)できる。結びつけ(bind)られた IP アドレスは sock データ構造体の recv_addr(訳注: recv_saddr?) と saddr に保存される。それらは、ハッシュへの問い合わせの際と、IP アドレスを互いに送信しあう場合に使用される。ポート番号はオプションであり、指定されない場合、サポートするネットワークに未使用の番号を割り当てるよう要請がなされる。慣習では、1024 未満のポート番号は、スーパーユーザの特権がないプロセスでは使用できない。基礎となるネットワークがポート番号を割り当てる場合、 1024 以上の番号を常に割り当てる。

パケットが基礎となるネットワークデバイスで受信されると、パケットは正しい INET ソケットと BSD ソケットへと伝達されて、処理されなければならない。そのために、UDP と TCP は、ハッシュテーブルを管理していて、それを使って、到着した IP パケット内にあるアドレスを問い合わせて、正しい socket/sock ペアへと IP パケットを伝達する。TCP はコネクション指向のプロトコルなので、UDP パケットの場合よりも TCP パケットを処理する場合のほうが関係する情報量が多い。

UDP は、割り当てられた UDP ポートを udp_hash というハッシュテーブルで管理している。そのハッシュテーブルは、sock データ構造体へのポインタから構成されていて、sock 構造体はポート番号に基づいてハッシュ関数によりインデックス付けされている。UDP のハッシュテーブルは、持ち得るポート番号の数よりも小さい(udp_hash は 128 か、UDP_HTABLE_SIZE の数のエントリしか持たない)ので、テーブル内のエントリのなかには、個々の sock が次へのポインタを持つことでリンクされた sock データ構造体の連結リストをポイントしているものがある。

TCP は、複数のハッシュテーブルを管理しているので、UDP よりずっと複雑である。しかし、TCP は、bind 操作をする間、実際に bind すべき sock データ構造体をそのハッシュテーブルに付け加えるわけではなく、要求されたポート番号が現在使用されていないかどうかチェックするだけである。 sock データ構造体は、listen 操作の間に TCP のハッシュテーブルに付け加えられる。

REVIEW NOTE: What about the route entered?

INET BSD ソケット上でコネクションを確立する

ソケットが作成されると、そのソケットは、相手側からの(inbound)コネクションリクエストを待機(listen)するために使用されていない限り、自己側からの(outbound) コネクションリクエストのために使用できる。 UDP のようなコネクションレスのプロトコルの場合、このソケット操作は限定された意味しか持たないのだが、TCP のようなコネクション指向のプロトコルの場合だと、それはふたつのアプリケーション間で仮想サーキットを構築することを意味する。

自己側からの(outbound)コネクションリクエストが可能となるのは、INET BSD ソケットを使用し、しかも使用する INET BSD ソケットが適切な状態(state)にある場合だけである。すなわち、そのソケット上で既にコネクションが確立していないこと、およびそれが相手側からの(inbound)コネクションリクエストの待機のために使用されていない場合である。これは、BSD socket データ構造体が SS_UNCONNECTED の状態になければならないことを意味する。 UDP プロトコルはアプリケーション間で仮想コネクションを確立することはなく、送信されたメッセージはすべてデータグラム(datagram)であるので、送信メッセージが送信先に届くかどうかは確定しない。しかし、UDP に関しても BSD ソケット操作である connect はサポートされている。UDP INET BSD ソケット上での connect 操作は、単にリモートアプリケーションのアドレスとして、その IP アドレスと IP ポート番号を設定する。さらに、ルーティングテーブルのエントリのキャッシュを設定して、(当該ルートが無効とならない限り)その BSD ソケットから送信された UDP パケットが再度ルーティング情報をチェックする必要がないようにする。キャッシュされたルーティング情報は、INET sock データ構造体内の ip_route_cache ポインタによってポイントされる。アドレス情報が指定されない場合、このキャッシュされたルーティング情報と IP アドレス情報が、その BSD ソケットを使って送信されるメッセージのために自動的に使用される。そして、UDP は sock の状態(state)を TCP_ESTABLISHE に変更する。

TCP BSD ソケット上での connect 操作の場合、TCP は、コネクション情報を含んだ TCP セグメント(segment)を作成して、指定された IP 送信先に送らなければならない。 TCP セグメントには、コネクション情報、開始セグメントのシーケンス番号(sequence number)、接続を開始したホスト側が処理できるセグメントの最大サイズ(maximum segment size, MSS)、送信および受信の際のウィンドウサイズ(window size)、等が含まれる。 TCP では、すべてのセグメントに番号が付けられるので、シーケンス番号の初期値には、最初のセグメントの番号が利用される。Linux は、悪意のあるアタックを防ぐために、妥当な範囲の乱数値を選択している。TCP コネクションの一方から送信され、相手側で問題なく受信されたセグメントに対してはすべて、データ破損なく成功裡に到達した旨の送達確認(acknowledgement)がなされる。送達確認のないセグメントは再送される。送信と受信のウィンドウサイズとは、送達確認が送信されないまま存在しうる未解決セグメントの数である。最大セグメントサイズは、コネクションリクエストを発信した側で使用されているネットワークデバイスに依存する。受信側のネットワークデバイスがそれよりも小さい最大セグメントサイズしかサポートしていない場合、そのコネクションは小さい方を使用する。自己側からの(outbound) TCP コネクションリクエストを発したアプリケーションは、相手側アプリケーションがコネクションリクエストを受け入れ(accept)るか拒絶( reject)するかを返答してくるまで待たなければならない。その場合、TCP ソケットは相手側からのメッセージを期待しているので、そのソケットは tcp_listening_hash に加えられて、それによって、相手側からの TCP セグメントはその sock データ構造体へと誘導される。また、TCP はタイマーをスタートさせて、送信先のアプリケーションがリクエストに対して応答しない場合、自己側からの(outbound)コネクションリクエストをタイムアウトさせる。

INET BSD ソケット上での待機(listen)

ソケットにアドレスが結びつけ(bind)られると、そのソケットは、結びつけ(bind) られたアドレスを指定した入ってくるコネクションリクエストを待機する(listen)。ネットワークアプリケーションは、予めソケットにアドレスを結びつけ(bind)なくてもそのソケット上で待つことができる。その場合、INET ソケット層が(そのプロトコルに関して)未使用なポート番号を探して、自動的にそのソケットに結びつけ(bind)る。ソケット関数 listen は、ソケット状態 (state)を TCP_LISTEN 状態へと変更し、入って来る接続を許可するために必要とされるそのネットワーク固有のすべての処理を行う。

UDP ソケットの場合、ソケット状態の変更で充分だが、TCP は、その際、アクティブとなったことで、ソケットの sock データ構造体をふたつのハッシュテーブルに付け加えなければならない。それらは、tcp_bound_hash テーブルと tcp_listening_hash である。どちらも、IP ポート番号に基づくハッシュ関数を経由して、インデックス付けされる。

入って来る(incoming) TCP コネクションリクエストがアクティブな待機中 (listening)のソケットで受信されたときはいつも、TCP は、それを表す新規の sock データ構造体を作成する。この sock データ構造体は、コネクションリクエストが最終的に受け入れ (accept)られたときに、TCP コネクションのボトムハーフ(bottom half)となる。また TCP は、入って来たコネクションリクエストを含む sk_buff を複製(cloning)して、それを、待機(listen)状態の sockデータ構造体の receive_queue キューに登録する。複製された sk_buff 構造体には、新規に作成された sock 構造体へのポインタが含まれる。

コネクション要求を受け入れる(accept)

UDP はコネクションの概念をサポートしていないので、INET ソケット上でのコネクションリクエストの受け入れ(accept)は、TCP プロトコルだけに適用される。先ず、待機(listen)状態のソケット上の accept 操作ルーチンは、その socket データ構造体から、新規の socket データ構造体を複製する。次に accept 操作ルーチンは、入って来る(incoming)コネクションリクエストを受け入れる(accept)ために、サポートするプロトコル層(layer)、すなわちこの場合 INET 層に渡される。 INET プロトコル層は、その下位層のプロトコルがコネクションをサポートしていない場合、たとえば UDP であった場合は、受け入れ(accept)操作に失敗する。下位層がコネクションをサポートしている場合、accept 操作ルーチンは、実(real) プロトコル(この場合、TCP)へと渡される。 accept 操作は、ブロックするかしないかのいずれかで行える。ブロックしない場合で、受け入れるべきコネクションがない場合、accept 操作ルーチンは失敗し、新規に作成された socket データ構造体は破棄される。ブロックする場合、accept 操作ルーチンを実行しているネットワークアプリケーションは、待ち行列に加えられ、TCP コネクションリクエストが受信されるまでサスペンドする。コネクションリクエストが受信されたら、そのリクエストを含む sk_buff は破棄され、sock データ構造体が INET ソケット層へと返されて、それより前に新規作成された socket データ構造体にリンクされる。新規 socket のファイル記述子(fd)番号が、ネットワークアプリケーションに返されるので、アプリケーションは、新規に作成された INET BSD ソケットでのソケット操作を、そのファイル記述子を使用して行うことができるようになる。

11.5 IP 層

ソケットバッファ(socket buffer)

個々の層が他層のサービスを利用するという、多層構造のネットワークプロトコルを持つことの問題点は、個々のプロトコルが、送信の際にはヘッダ(header)とテイル (tail)をデータに付加し、受信データの処理の際にはそれを削除するといった操作が必要になることである。個々の層は自分のプロトコルヘッダとテイルがどこにあるのか探す必要があるので、このことがプロトコル間でのデータバッファの受け渡しをむずかしくしている。個々の層でバッファをコピーすることはひとつの解決策であるが、それでは非効率である。そこで、Linux は、ソケットバッファもしくは sk_buff を使用してプロトコル間やネットワークデバイスとの間でデータを受け渡している。sk_buff には、ポインタとデータ長(length)のフィールドが含まれているので、それによって、個々のプロトコル層は、標準関数か「メソッド(methods)」経由でアプリケーションデータを操作できる。

図表(10.4) ソケットバッファ (sk_buff)

図表(10.4)は、sk_buff データ構造体を示すものである。個々の sk_buff には、一組のデータが関連付けられている。 sk_buff には、4 つのデータポインタがあり、それらを使ってソケットバッファ内のデータ操作と管理がなされる。それら 4 つのポインタとは、次のものである。
[see include/linux/skbuff.h]

head

メモリ内のデータ領域の始点を指す。これは、sk_buff と関連するデータブロックが割り当てられたときに確定する。

data

プロトコルデータの現在の始点を指す。このポインタは、その時点で sk_buff を所有するプロトコル層に依存するため、値は可変である。

tail

プロトコルデータの現在の終点を指す。このポインタも所有者たるプロトコル層依存なので、値は可変である。

end

メモリ内のデータ領域の終点を指す。これは、sk_buff が割り当てられたときに確定する。

len と truesize のふたつのデータ長のフィールド(length field)があり、それぞれ、現在のプロトコルパケットの長さとデータバッファ全体のサイズを示している。sk_buff 処理コードは、アプリケーションデータに対するプロトコルヘッダとプロトコルテイルの付加および削除に対する標準的な仕組みを提供する。それらは、sk_buff 内のデータ、テイル、len フィールドを安全に操作する。sk_buff 処理コードには、次のものがある。

push

これは、data ポインタをデータ領域の始点方向に移動させ、len フィールドを増加(increment)する。これが使用されるのは、送信されるべきデータの先頭にデータやプロトコルヘッダを付加するときである。
[see: skb_push(), in include/linux/skbuff.h]

pull

これは、data ポインタを始点とは反対側の、データ領域の終点方向へと移動させて、len フィールドを減少(decrement)する。これが使用されるのは、受信したデータの先頭からデータやプロトコルヘッダを削除するときである。
[see: skb_pull(), in include/linux/skbuff.h]

put

これは、tail ポインタをデータ領域の終点方向に移動させ、len フィールドを増加(increment)する。これが使用されるのは、送信されるべきデータの終点にデータやプロトコル情報を付加するときである。
[see: skb_put(), in include/linux/skbuff.h]

trim

これは、tail ポインタをデータ領域の始点方向に移動させ、len フィールドを減少(decrement)する。これが使用されるのは、受信したデータからデータやプロトコルテイルを削除するときである。
[see: skb_trim(), in include/linux/skbuff.h]

sk_buff データ構造体には、さらにポインタが含まれている。 sk_buff は処理の最中に sk_buff の二重連結循環リストに保存されるが、その際に使用されるポインタである。sk_buff をそのリストの先頭や終端に加える際や、そこから削除する際には、そのための汎用的な sk_buff ルーチンが用意されている。

IP パケットの受信

「デバイスドライバ」の章では、Linux のネットワークドライバがカーネルに組み込まれて、初期化される方法を説明した。それによって、一連の device データ構造体が dev_base リストにリンクされた。個々の device データ構造体は、そのデバイスを記述するとともに、ネットワーク層がネットワークドライバに処理を実行させる必要があるときに呼び出すことができるコールバックルーチンのセットを提供する。これらの関数の大部分はデータ送信とネットワークデバイスのアドレスに関するものである。ネットワークデバイスがそのネットワークからパケットを受信したとき、受信したデータを sk_buff データ構造体に変換しなければならない。ネットワークドライバは、それらを受信すると、受信したパケットから作成された sk_buff を backlog キューに付け加える。
[see: netif_rr(), in net/core/dev.c]
もし backlog キューが大きくなりすぎた場合、受信した sk_buff は破棄される。ネットワークのボトムハーフ(bottom half)は、仕事ができたので、実行準備完了(ready to run)のフラグが立つ。

ネットワークボトムハーフハンドラがスケジューラによって実行されるとき、そのハンドラは、まず送信待ちになっているネットワークパケットをすべて処理した後に、どのプロトコル層に受信したパケットを渡すか判断して、sk_buff の backlog キューを処理する。
[see: net_bh(), in net/core/dev.c]
Linux のネットワーク層が初期化されると、個々のプロトコルが登録され、packet_type データ構造体を ptype_all リストか ptype_base ハッシュテーブルに付け加える。 packet_type データ構造体には、プロトコルタイプ、ネットワークデバイスへのポインタ、プロトコルの受信データ処理ルーチンへのポインタ、最後にそのリストかハッシュの連結リスト内の次の packet_type データ構造体へのポインタが含まれる。ptype_all 配列の連結リストは、すべてのネットワークデバイス上で受信された全パケットを探すために利用されるもので、したがって通常は使用されない。ptype_base ハッシュテーブルはプロトコル識別子をハッシュインデックスとするもので、どのプロトコルが入って来たネットワークパケットを受信すべきかを決定するために利用される。ネットワークボトムハーフは、入って来た sk_buff のプロトコルタイプが、上記いずれかのテーブルにあるひとつ以上の packet_type エントリと合致するかどうか調べる。たとえば、すべてのネットワークトラフィックを調査して、そのプロトコルがひとつ以上のエントリにマッチした場合、その際には sk_buff は複製される。そして、その sk_buff は、合致したプロトコルの処理ルーチンへと送られる。
[see: ip_recv(), in net/ipv4/ip_input.c]

IP パケットの送信

パケットは、データ交換をしようとするアプリケーションによって送信される他に、確立されたコネクションを維持したりコネクションを確立したりするときに、ネットワークプロトコルによって生成される。しかし、データの生成方法がどのようなものであっても、そのデータを保持するために sk_buff が作成され、プロトコル層を通過する際に、種々のヘッダが個々のプロトコル層によって付加される。

sk_buff が送信されるには、ネットワークデバイスに渡される必要がある。しかし、それにはまず、IP 等のプロトコルが、どのネットワークデバイスを使用すべきか判断する必要がある。この判断は、そのパケットにとって何が最適なルートなのかによって決まる。たとえば、PPP プロトコル経由で、モデムによって単一のネットワークに接続されているコンピュータの場合、ルートの選択は容易である。パケットは、ループバックデバイス経由でローカルホストに送られるか、PPP によるモデムのコネクションの反対側にあるゲートウェイに送られるかのいずれかである。イーサネットで接続されたコンピュータの場合、そのネットワークには多くのコンピュータが接続されているので、選択はそれよりも難しくなる。

送信されるすべての IP パケットについては、IP がルーティングテーブルを使用して送信先の IP アドレスに対するルートの解決をする。ルーティングテーブル内での個々の IP 送信先の問い合わせが成功した場合、使用すべきルートを示した rtable データ構造体が返される。
[see: include/net/route.h]
これには、使用すべき送信元 IP アドレス、そのネットワークの device データ構造体のアドレス、また時には予め組み込まれたハードウェアヘッダが含まれる。このハードウェアヘッダはネットワークデバイス固有のもので、それには送信元と送信先の物理アドレスと、それ以外のメディア固有の情報が含まれている。ネットワークデバイスがイーサネットデバイスの場合、ハードウェアヘッダは図表(10.1)で示されるようなものとなり、送信元と送信先のアドレスはイーサネットの物理アドレスとなる。ハードウェアヘッダはそのルートとともにキャッシュされるが、それは、そのルート上で送信されるべき個々の IP パケットにはそのハードウェアのヘッダが付加されなければならず、その作成には時間がかかるからである。ハードウェアヘッダに物理アドレスが含まれる場合、そのアドレスは ARP プロトコルを使用して解決されなければならない。その場合、出て行く(outgoing)パケットは、その物理アドレスが解決されるまで送信されない。アドレスが解決されてハードウェアヘッダが組み込まれたら、ハードウェアヘッダはキャッシュされ、当該インターフェイスを使用して送信されるそれ以降の IP パケットは、ARP を使う必要がなくなる。

データの細分化(fragmentation)

すべてのネットワークデバイスには最大パケットサイズ(maximum packet size)があり、それより大きなデータパケットは送信も受信もできない。IP プロトコルはこれに対処しており、データを小さな断片(fragment)に分割することで、ネットワークデバイスが処理できるパケットサイズに合わせるようになっている。 IP プロトコルヘッダにはフラグメント(fragment)フィールドがあり、そこにはフラグ (flag)とフラグメントオフセット(fragment offset)が含まれている。

IP パケットの送信準備ができたとき、IP はそのパケットを外に送信するネットワークデバイスを探す。そのデバイスは IP ルーティングテーブルで見つかる。
[see: ip_build_xmit(), in net/ipv4/ip_output.c]
個々の device データ構造体には、その最大転送単位 (単位はバイト) を示すフィールドがあり、これは原語の maximum transfer unit を略し mtu フィールドと呼ばれる。デバイスの mtu が、送信を待つ IP パケットのパケットサイズよりも小さい場合、IP パケットはより小さな(mtu サイズの)フラグメントへと分割されなければならない。個々のフラグメントは sk_buff によって表される。その IP ヘッダは、そのパケットがフラグメントであること、そしてそれに含まれるデータがどのようなオフセット値を持つかを示すためのマーク付けがなされる。その最後のパケットは、最後の IP フラグメントである旨をマークされる。細分化(fragmentation)の過程で、IP が sk_buff を割り当てられない場合は、その送信は失敗となる。

IP フラグメントの受信は、その送信よりもやや面倒である。IP フラグメントは、順序ばらばらに受信されるかもしれず、それらすべてが受信されてから組み立て直す必要があるからである。
[see: ip_rcv(), in net/ipv4/ip_input.c]
IP パケットが受信されるたびに、それが IP フラグメントか否かのチェックがなされる。最初にメッセージのフラグメントが受信された際、IP は、新規に ipq データ構造体を作成し、その構造体が IP フラグメントの ipqueue リストにリンクされて、再構成されるのを待つ。より多くの IP フラグメントが受信されると、適切な ipq データ構造が分かるので、新規に ipfrag データ構造体が作成されて、そのフラグメントを記述する。個々の ipq データ構造体は、IP 受信フレームのフラグメントを一意的に記述するが、その際には、送信元と送信先の IP アドレス、上位層プロトコルの識別子、その IP フレームの識別子が使用される。フラグメントがすべて受信されたとき、それらは組み立てられて単一の sk_buff となり、次の上位層プロトコルへと渡され、処理される。個々の ipq にはタイマーが含まれていて、それは有効なフラグメントが受信されるたびに再始動される。このタイマーが時間切れになった場合、ipq データ構造体と ipfrag とは破棄され、当該データは転送中に喪失したとの推定がなされる。そのメッセージの再送は、上位層のプロトコルの役割である。

11.6 Address Resolution Protocol (ARP)

ARP(Address Resolution Protocol)の役割は、IP アドレスをイーサネットアドレスのような物理的なハードウェアのアドレスへと変換することである。IP がこの変換を必要とするのは、送信のために(sk_buff 形式の)データをデバイスドライバに渡す直前である。
[see: ip_build_xmit(), in net/ipv4/ip_output.c]
IP が実行する種々チェックの中には、そのデバイスがハードウェアヘッダを必要とするか、必要とする場合はパケットのハードウェアヘッダを再構成(rebuild)する必要があるかといった項目が存在する。 Linux は、ハードウェアヘッダをキャッシュすることで、それらを頻繁に再構成しないで済むようにしている。ハードウェアヘッダの再構成が必要な場合、Linux は、デバイス固有のハードウェアヘッダ再構成ルーチンを呼び出す。
[see: eth_rebuild_header(), in net/ethernet/eth.c]
すべてのイーサネットデバイスは同一の汎用ヘッダ再構成ルーチンを使用するが、そのルーチンが ARP サービスを利用して送信先 IP アドレスを物理アドレスに変換する。

ARP プロトコルそのものは非常にシンプルであり、ARP リクエスト(要求、request) と ARP リプライ(応答、reply)のふたつのタイプのメッセージから成っている。 ARP リクエストには、変換に必要な IP アドレスが含まれ、応答には(上手くいけば) その IP の変換後のアドレスであるハードウェアアドレスが含まれる。ARP リクエストは、ネットワークに接続されたすべてのホストにブロードキャストされるので、あるイーサネットネットワークにおいては、そのイーサネットに繋がるすべてのマシンが ARP リクエストを見ることになる。要求された IP アドレスを所有するマシンがその ARP リクエストに応答し、自分の物理アドレスを含めた ARP リプライを返す。

Linux 上の ARP プロトコル層は arp_table データ構造体のテーブルを中心に構成されていて、個々の構造体が IP から物理アドレスへの変換を記述している。それらのエントリは、IP アドレスの変換が必要になったときに作成され、それらが時間の経過で役に立たなくなったときに削除される。個々の arp_table データ構造体は次のようなフィールドを持つ。

last used

その ARP エントリが最後に使用された時間。

last update

その ARP エントリが最後に更新された時間。

flags

これらはそのエントリの状態を表す。それが解決済みでまだ有効なアドレスかどうか、等である。

IP address

そのエントリが示す IP アドレス。

hardware address

変換されたハードウェアアドレス。

hardware header

これは、キャッシュされたハードウェアヘッダに対するポインタである。

timer

これは timer_list のエントリであり、それは応答の返らない ARP リクエストをタイムアウトするために使用される。

retries

その ARP リクエストがリトライした回数。

sk_buff queue

IP アドレスの解決を待つ sk_buff エントリのリスト。

ARP テーブルは、ポインタテーブル(arp_table の配列)から構成され、そのポインタが arp_table エントリの連結リストを指している。エントリへのアクセス速度を上げるためにそれらはキャッシュされる。個々のエントリを探す場合、エントリは、IP アドレスの末尾 2 バイトを取り出してテーブル内でインデックス付けされているので、そのインデックスを使ってエントリの連結リストを辿れば、目的のエントリを見つけることができる。 Linux は、予め作成されたハードウェアヘッダもキャッシュしており、それは arp_table エントリの中に hh_cache データ構造体の形で入れられている。

IP アドレス変換が要求されたが、適合する arp_table エントリが存在しないとき、ARP は ARP リクエストメッセージを送信しなければならない。 ARP は、新規に arp_table エントリをテーブル内に作成し、アドレス変換を要するネットワークパケットを含んだ sk_buff を新規エントリの sk_buff キューに登録する。 ARP は ARP リクエストを送信し、ARP 時間切れタイマーを走らせる。応答がない場合、ARP は何度かリクエストを再送してみるが、それでも応答がない場合は、その arp_table のエントリを削除する。エントリの削除は、その IP アドレスの変換を待っているキュー上にあるすべての sk_buff に通知される。そして、失敗を上位プロトコル層に送信するのは ARP プロトコル層の役割である。 UDP はパケットが喪失しても気にしないが、TCP は確立された TCP リンク上で再送を試みる。もし、IP アドレスの所有者がハードウェアアドレスを付して応答を返した場合、その arp_table エントリは完成(complete)のマークが付けられ、キュー上にある該当する sk_buff はキューから削除されて、送信処理の過程にまわされる。ハードウェアアドレスは、個々の sk_buff のハードウェアヘッダの中に書き込まれる。

ARP プロトコル層は、自身の IP アドレスを指定した ARP リクエストに対する応答 (respond)もしなければならない。ARP は、物理層の ARP リクエストのプロトコルタイプ(ETH_P_ARP)を登録し、packet_type データ構造体を生成する。これは、ネットワークデバイスが受信したすべての ARP パケットが ARP プロトコル層に渡されることを意味する。このことは、ARP リプライ(reply)の場合だけでなく、ARP リクエスト(request)を発するときも同様である。 ARP が ARP リプライを生成するときは、リクエストを受信したデバイスの device 構造体に保存されたハードウェアアドレスを使用する。

ネットワークトポロジーは時間の経過によって変化することがあるので、IP アドレスが以前と異なるハードウェアアドレスに割り当てられることがある。たとえば、ダイヤルアップサービスの中には、個々のコネクションが確立した時点で IP アドレスを割り当てるものがある。ARP テーブルが最新の情報を保持するようにするために、 ARP は定期的に実行されて、arp_table の全エントリを走査してタイムアウトになったものがないか確認がなされる。その際、キャッシュされたハードウェアヘッダをひとつ以上含むエントリを削除してしまわないよう注意が払われる。他のデータ構造がそれらのエントリに依存しているので、削除してしまうことは危険だからである。ある種の arp_table エントリは永続的で、それらが解放されないよう、その旨マークされている。ARP テーブルは大きくなりすぎないよう制限されている。個々の arp_table エントリはカーネルメモリを消費するからである。新規にエントリを割り当てる必要が生じたり、 ARP テーブルが最大サイズに達したときはいつも、一番古いエントリを探してそれらを削除することでテーブルが適度な大きさに保たれる。

11.7 IP ルーティング

IP ルーティング(経路づけ)機能は、特定の IP アドレス宛の IP パケットをどこに送信すべきかを決定する。IP パケットを送信する際は多くの選択肢がある。送信先には到達可能だろうか？到達可能なら、送信のためにどのネットワークデバイスを使用すべきか？送信先に到達し得る利用可能なデバイスが複数ある場合、よりよいデバイスはどれか？ IP ルーティングデータベースは、それらの疑問に答えるための情報を管理する。ふたつのデータベースが存在するが、最も重要なのは、フォワーディング情報データベース(Fowarding Information Database)である。これは既知の IP 送信先とそこへの最良の経路を漏れなく収めたリストである。それより小規模だが高速なデータベースとしてルートキャッシュ(route cache)があり、それは IP 送信先に関するすばやい経路問い合わせのために使用される。すべてのキャッシュと同様に、これには頻繁にアクセスされる経路しか含まれておらず、その内容は、フォワーディング情報データベースから取り込まれたものである。

経路(route)は、BSD ソケットインターフェイスへの IOCTL リクエストを経由して追加と削除がなされる。それらはプロトコルに渡されて、処理される。INET プロトコル層の場合、IP の経路の追加と削除ができるのは、スーパーユーザ権限を持ったプロセスだけである。経路は固定することも可能であり、あるいは、時間の経過によって動的に変更することも可能である。ルータ(router)(訳注: ルータとは、ネットワークから他のネットワークに、他のシステムが送信したパケットを送り出すもの)でない限り、大部分のシステムでは固定されたルートが使用されている。ルータはルーティングプロトコルを実行して、それが既知の送信先の全 IP に対してルーティングできるよう常時チェックしている。ルータでないシステムは、エンドシステム(end system)と呼ばれる。ルーティングプロトコルは、たとえば GATED のようにデーモンとして実装されているが、それらも IOCTL BSD ソケットインターフェイス経由で経路を追加したり削除したりしている。

ルートキャッシュ

IP 経路の問い合わせがあるときはいつも、合致する経路がないか、まずルートキャッシュがチェックされる。ルートキャッシュに合致する経路がない場合、経路についてフォワーディング情報データベースが検索される。そこにも経路が見つからない場合、IP パケットの送信は失敗し、アプリケーションにその旨通知がなされる。フォワーディング情報データベースに該当する経路があり、ルートキャッシュにはない場合、新規のエントリが生成され、ルートキャッシュにその経路が付け加えられる。

ルートキャッシュは、rtable データ構造体の連結リスト(chain)へのポインタを含んだテーブル(ip_rt_hash_table) である。ルートテーブルに対するインデックスは、IP アドレスの最下位から 2 バイトを基準としてハッシュ関数により生成される。これらの 2 バイト情報は、たいていの場合送信先によって異なっているので、ハッシュ値を散らすには最良である。個々の rtable エントリには、経路に関する情報が含まれていて、それには、送信先 IP アドレス、その IP アドレスに到達するために使用するネットワークデバイス、使用可能なメッセージの最大サイズなどがある。またそれは、リファレンスカウント(reference count)、ユーサージカウント(usage count)、(jiffies を使って表された)最終時間のタイムスタンプ(timestamp of last time)といった情報も持っている。リファレンスカウントは、その経路が使用されるたびにインクリメントされ、その経路を使用したネットワークコネクションの数を示す。そして、この経路を使用したアプリケーションが終了することによりデクリメントされる。ユーサージカウントはその経路が問い合わせを受けるごとに加算され、ハッシュエントリの連結リスト内の rtable を処理するために使用される。ルートキャッシュ内のすべてのエントリは、「最後に使用された時間を示すタイムスタンプ」を持っていて、それは rtable が古くなりすぎていないかの定期的なチェックに使用される。
[see ip_rt_check_expire(), in net/ipv4/route.c]
その経路が最近使用されていない場合、それはルートキャッシュから破棄される。経路がルートキャッシュに保存されている場合、それらは、最も利用頻度が多いものがハッシュ連結リストの先頭に来るよう並べ替えられる。これによって、経路問い合わせがあった際に、その発見が高速になる。

フォワーディング情報データベース(Forwarding Information Database)

図表(10.5) フォワーディング情報データベース

フォワーディング情報データベース(図表(10.5)参照)には、IP アドレスから見た、その時点においてシステム上で利用可能な経路の一覧が含まれる。それは非常に複雑なデータ構造をしていて、妥当な効率を得られるようアレンジされてはいるが、高速で問い合わせが可能なデータベースではない。特に、送信されるべきすべての IP パケットについて送信先をこのデータベースに問い合わせるとしたら、検索は非常に遅いものになるだろう。ルートキャッシュが存在するのは、そのためである。既存の適切な経路を使って IP パケットを高速に送信するわけである。ルートキャッシュはこのフォワーディング情報データベースから派生したもので、よく利用されるエントリを表したものである。

個々の IP サブネットは fib_zone データ構造体によって表される。それらのすべては fib_zones ハッシュテーブルからポインタ参照されている。ハッシュのインデックスは、その IP サブネットのマスクから生成されている。同一サブネットに対するすべての経路(route)は、fib_node と fib_info データ構造体のペアによって記述されていて、それらは、個々の fib_zone データ構造体内の fz_list キューに登録されている。そのサブネットの経路の数が増えた場合、ハッシュテーブルが生成されて、fib_node データ構造体の発見を容易にする。

同一の IP サブネットに対していくつかの経路がある場合があり、それらの経路は複数のゲートウェイのひとつを通過できる。IP ルーティング層は、同一サブネットへの複数の経路が同じゲートウェイを使用することは許さない。言い換えると、あるサブネットへの経路が複数ある場合、個々の経路は必ず異なるゲートウェイを使用することが保証される。個々の経路に関連付けられるのがメトリック(metric)である。これは、その経路がどれだけ最短に近いかを示す指標である。経路のメトリックは、本質的には、宛先のサブネットに到達するまでに経由しなければならない IP サブネットの数である。メトリックが大きくなるにつれて、その経路は最短経路から遠くなる。

(脚注1) National Science Foundation
(脚注2) Serial Read Only Memory
(脚注3) で、何のために？

次のページ前のページ目次へ