Valid XHTML 1.1! クリエイティブ・コモンズ・ライセンス

顔面判定ソフトとセキュリティ。

(『SIGHT』2002 年 春号?)

山形浩生

要約: 顔面判定ソフトが空港に導入しはじめられているが、結構誤検出が多くてつかいものになりますかどうか。とはいえ、技術としてはたいへんにおもしろいんだけれど。




 ちょっとマイナーな話ではあるのだけれど、2002 年のワールドカップに備えて、関西国際空港に顔面認識カメラが設置されていたというニュースがこの夏に流れて、へえ、と思ったのだった。実は最近、世界ハッカー大会に顔を出したときにちょうどこのネタをやっていたからだ。

 アメリカではこの手の装置が空港をはじめあちこちに入れられようとしている。もちろん去年のテロの影響だ。どういうものかというと、ビデオカメラをあちこちに据え付けて、それで通る人の顔を撮り、それをデータベースと照合することでテロリストや犯罪者をつかまえようというわけ。

 これに関連した記事をいろいろ見ていたんだけれど、「わずか数秒で日本の全人口に相当する写真を照合できる」とか「エラー率 1%以下」とか、おそろしげなことが書いてあって、そこから監視社会の到来やプライバシー侵害の危惧に話がつながる、というのが一般的な記事の進み方だ。

 が、もちろんそこまで話を一気に進める前に、まず疑問に思うべきことがある。それは「そもそもこのシステムってどこまでうまく機能するの?」ということだ。いくつか記事を見てみたけれど、これについてまともに検討した記事は一つもなかった。いくつかのベンダーの公称発表みたいな数字がちょこちょこ出てそれっきりだ。

 もちろんメーカーやベンダーは、百発百中みたいなことを言いたがる。でもそんなわけはない。現在の技術水準を知っている人ならわかるだろう。スキャナーで文字の読みとりをやってみたことはないだろうか? なんとか使える、というくらいだろう。英語のテキストですら数字の1と小文字のl(エル)をまちがえるのはしょっちゅうだし、0とo(オー)の混同もよく起きるし、rとnが続いているとしょっちゅうmにまちがえられる。わずか100に満たないくらいの文字数ですらこれだけエラーが入る。まして日本語を読ませると、まだ実用水準とはとても言えないのは経験的にみんな知っている。まして人間の顔みたいな微妙なものとなると、どこまでうまく行くのやら。

 ちょうどこのハッカー会議では、まさにこの「顔面判定ソフトはどこまで効くのか」というのをいろんな顔で検討していたのだった。

 この手のソフトを出しているところは数社あるけれど、どれもいくつかのステップをたどる。まず、顔の輪郭を抽出する。そして目を探すのだ。両目をすべての基点として、顔の特徴的な部分に線をひき、その長さや傾きなどをデータとする。そしてそのデータをもとにして、データベースにある他の顔と照合し、一致しているかどうかを見る。そして一致度にもとづいて点数を出してくれるわけだ。

 同じ顔写真を比べさせると、ほぼ百発百中で一致する。あたりまえだけれど、これは基本中の基本として重要なことだ。で、講演者はいろいろと細工を加えた顔写真を作って、それをソフトがどう判定するかを調べている。

 わかったこととして、ひげはあまり効かない。ひげくらいはもちろんソフト作成者にも想定されているため、実際の検出に使われるのは顔の上半分がほとんどだからだ。まためがねも効かない。めがねをかけてもかけていなくても、100 点満点で見たときに、85 点か 87 点か、というくらいの差しか出ない。さらに帽子もほとんど影響しない。そして驚いたことに、加齢があまり影響しない。人の顔は、十代半ばでだいたい固まる。それ以降の写真を使うと、10 年くらい昔の写真と今の画像を比べても、かなりよい一致度が出る。

 一方、目を基点にしているために、サングラスをかけられると完全にアウトだ。また、顔がよこを向いていたり、視線がそらされたりしているとダメだ。真っ正面から 15 度以上ずれるとダメだし、カメラに写るとき下を向いているとかなりつらい。あと、表情がかなり影響する。まじめな写真と、ニカッと笑った写真はなかなか一致しないのだ。顔をしかめたり歪めたりするのも効果的。もちろん、お面をかぶって歩けばコンピュータにはわからない。が、そんなのはコンピュータがなくったって十分怪しい。

 さて、ここまでは同じ人かどうかをうまく識別できるかどうかだった。次にこの人がやったのは、別の人の写真をもってきて、それをちゃんとちがう人物だと判定してくれるかどうか、というテストだった。具体的には、FBIのトップ 10 指名手配リストの写真を持ってきて、それを自分の写真と比較してどのくらい一致が出るかをチェックしたのだった。

 すると……かなり高いポイントがでちゃうのだ。自分のいろんな写真同士だと、だいたい85点前後というところなんだけれど、まるでちがう人をもってきても、75点くらいは出ちゃうのだ。これは特に、照合の原データとなるもの(たとえば指名手配写真)の質が効いてくる。ビン=ラディンくらいなら、はっきりした写真がたくさんあるけれど、それ以外のテロリストの多くの写真は決して鮮明とは言い難い。するとどうしても判定がしにくくなるんだ。そして講演者(白人)はあるアルカイダのテロリストと非常に高い一致度(87点)を示して、会場は爆笑していた。もちろん写真を見ると全然別人なんだけれど、ソフトがたまたま見ているポイントに基づくと似ていることになるらしい。

 さて、ここからわかることは、たぶんこのシステムは実用にならんだろう、ということだ。

 こうしたシステムで問題になるのは、どこで境界線をひくかということだ。何点くらいの一致度が出たら警報をならす? 高すぎたら、テロリストや犯罪者が通過する可能性が高まる。でも、低すぎたら、誤認がやまほど出てしまう。たとえば80点以上の一致が出たら要注意、ということにしておこうか。でもそうすると、この講演者はアルカイダのテロリストと一致しているということで至る所で警報を鳴らしてしまう。

 さて、ぼくが担当者ならどうするだろう。一致度はうんと高く設定するしかない。だって実際の空港利用者の中に、テロリストやフーリガンがどのくらいの割合で混じっているかを考えてみよう。1/100? 1/1000? まさか。成田空港だと、一日三万人くらいが利用する。この中に、たぶん指名手配されているようなテロリストや犯罪者は一人もいないだろう。たぶん年に一人いればいいほうじゃないかな。すると、1000 万人に一人くらいか。これを捕まえるために、何人まちがえてつかまえて、いやな思いをお互いしなきゃいけないか考えてみると——しかもその多くは、人間なら一発で別人とわかる人々。さらに指名手配の写真を見れば、その多くはボケボケもいいところの写真ばかり。ろくな成果は期待できないだろう。そういう誤報が100人も続く頃には「もうこの機械の判定なんか信用できない」と関係者みんなが思うようになるだろう。上の実験は、FBI の指名手配トップ 10でやった。でも、たとえばトップ 100 とか 200 でやってみたらどうなるだろう。たぶん、だれがやっても、必ず一人くらい一致判定で高得点が出ちゃう指名手配者がいるだろう。よほど一致度を高くしないと、ありとあらゆる人で警報が鳴るよ。

 実はこれについては、アメリカの科学技術局も「まだつかいものにならない」という報告を出している。それでも、いまの「セキュリティ重視」の風潮だと、そんなものでもとにかく入れろということになってしまう。そしてそれで何かセキュリティが高まったような気になってしまう。ぼくはとりあえず、プライバシーがどうしたという話よりは、そういうセキュリティというものについての基本的な考え方のほうが問題だとは思うんだ。もちろんだからといって、こういう動きを心配しなくていいということじゃない。それはまた別のレベルで当然考えなきゃならない問題なんだけれど。

前号へ 次号へ SIGHT インデックス YAMAGATA Hirooトップに戻る


YAMAGATA Hiroo<hiyori13@alum.mit.edu>
Valid XHTML 1.0!クリエイティブ・コモンズ・ライセンス
このworkは、クリエイティブ・コモンズ・ライセンスの下でライセンスされています。