100年前の東京の映像を、AIがカラーの4K画質でよみがえらせた。それは修復なのか、“創作”なのか?

いまから100年以上も前のサンフランシスコや東京の映像が人工知能(AI)によってカラー化され、しかも4K画質に高解像度化されてよみがえった。機械学習による推測で生成されたのは色だけではない。元のフィルムではぼやけて見えなかった当時の日本人の表情まで鮮やかに描写されたのだ。果たしてこれは映像の“修復”なのか、それとも“創作”なのだろうか?
film
LUXY IMAGES/GETTY IMAGES

いまから110年以上も前の1906年4月14日。マイルズ兄弟はサンフランシスコのマーケット通りにあるスタジオから街を走るケーブルカーに乗り、のちに有名になる短い映像を撮影した。「A Trip Down Market Street」と題されたこのドキュメンタリー映像は、当時の街の様子を生き生きと伝えている。

ケーブルカーがゆっくりと近づいてくると、ヴィクトリア朝時代に特有の大きな羽根飾りの付いた帽子をかぶった女性が、急ぎ足で線路を横切る。警察官が警棒を振り回し、新聞売りの少年は声を張り上げる。自動車がケーブルカーの前に割り込んでくる様子も映っており、オープンカーのように屋根のないモデルだとドライヴァーの体が揺れているところまではっきりと映っている。

映像が12分ほど続くと、ケーブルカーは美しい時計台のあるフェリービルディングの前にたどり着く。ここでケーブルカーはターンテーブルに乗り、方向転換するのだ。

この映像から4日後。4月18日早朝にサンフランシスコは大地震に襲われ、壊滅的な被害を受けている。

1世紀前の街の様子がカラーの4K映像に

それから1世紀を経たいま、この短編映像にデニス・シリヤエフという人工知能AI)のギークが魔法をかけ、驚くべき作品を生み出した。シリヤエフは白黒の映像をカラー化し、しかも解像度を4K(3,840×2,160ピクセル相当)まで引き上げたのである。しかもフレーム補完という技術のおかげで、フレームレートは60fps(フレーム/秒)になった。

加工後の映像は実に魅惑的だ。派手な羽根飾りの帽子は鮮やかな彩色が施され、新聞売りの少年がいたずらっぽい笑みを浮かべている様子がわかる。さらに、これまで見えなかった細かな部分まで見えてしまっている。なんとケーブルカーの線路沿いに転がっている馬のふんまで映っているのだ。

Neural.loveという企業のプロダクトディレクターであるシリヤエフは、AIによる動画の高画質化サーヴィスを提供している。これまでに、リュミエール兄弟による『ラ・シオタ駅への列車の到着』(1896年)や、1911年のニューヨークを撮影した動画の修復などに取り組んできた。1972年にアポロ16号の月面車がとらえた月の映像もある。いずれも驚くほど鮮明に、はるか昔の世界を伝えている。


人工知能について詳しく知りたい? 会員限定のコンテンツも公開中!

はたしてAIに倫理や哲学は必要だろうか。ダイヴァーシティやインクルージョンを理解できるだろうか。汎用型AIか特化型AIかという二元論を超えて、技術的特異点の真のインパクトを読み解く。


修復ではなく「拡張」と呼ばれる理由

厳密に言えば、シリヤエフは単なる“修復”を施したわけではない。フィルムの傷を取り除くだけでなく、AI技術を駆使して高画質化するために必要なデータをつくり出し、もとの動画に付け加えているからだ。

例えば、白黒動画の彩色に使われる「DeOldify」というAIツールは、1,400万枚を超える画像のデータセットによって、さまざまな物体が一般的にはどのような色をしているのかを学習している。学んだ知識を動画に映った物体に当てはめることで、カラー化が可能になるのだ。

シリヤエフは「この点は重要なんです」と語る。「訓練したニューラルネットワークを使っているので、(修復ではなく)“拡張”と呼んでいます。AIで動画を処理すると新しいデータが加えられるのです。彩色から高画質化、フレーム補完まで、すべてが拡張なんです」

動画には、再生したときに現れる黒い点や細かい線などのノイズを取り除く処理も施されている。この点では修復と言っていいだろう。だが、フィルムアーカイヴの専門家であれば、シリヤエフのしているような処理を修復とは認めないはずだ。機械学習で訓練されたAIが推測に基づいてつくり出したデータがたくさん追加されているからで、こうしたデータが正確である保証はない。

シリヤエフは、これに反論するつもりはないと強調する。「フィルムアーカイヴの仕事に携わる人たちには大きな敬意を抱いています」

白黒映像が色鮮やかになるメカニズム

それでは、AIがどうやって“拡張”を進めているのかを具体的に見ていこう。彩色に使われるAIツールのDeOldifyは、まず草木やさまざまな種類の服を着た人間などの特定の物体を認識し、それぞれに適した色を当てはめるよう訓練されている。

このツールは古い白黒フィルムであっても、そこにある物の色を“想像”できる。だが、アルゴリズムは完璧からはほど遠く、訓練に使われたデータセットに含まれていなかった物体は処理できない。シリヤエフは「旗のようなものでは苦戦します。旗を認識することは学んでいないからです」と説明する。

次のステップは高画質化だ。この部分を担うニューラルネットワークは、解像度の高い画像と低い画像を組み合わせたデータセットを使って、低解像度の画像を高解像度のものと同じように見せるよう訓練されている。

画像をピクセル単位で解析し、特定の箇所のコントラストを上げるといった処理をするのだという。シリヤエフは「ここに明るいピクセルがあり、中央に暗いピクセルがあるといった具合に見ていくと、どうすれば4倍の解像度にできるのかわかるのです」と語る。

「存在しないコマ」をAIが補完

フレームレートを補完するアルゴリズムは、大量の動画のデータベースから1コマずつのつながりを学習する。ここから人やクルマがどのように動くのかといったことを学んでいくわけだ。

「アルゴリズムにできるだけ多くの動画を見せれば、同じようなものを見たときに過去のデータを参照したときの結果を適用できます。映像記憶のようなものだと考えてもらえばいいでしょう」と、カリフォルニア大学マーセド校教授のミンシュアン・ヤンは説明する。ヤンはシリヤエフが利用したAIツール「Depth-Aware Video Frame Interpolation(DAIN)」の開発者だ。

シリヤエフが“拡張”したような古い映像は、サンフランシスコにあるプレリンガー・アーカイヴズに保管されていたもので、フレームレートは16fpsだった。これをDAINで処理すると、AIは特定のコマに映っている物体がどう移動するのか予測して新しいコマをつくり出し、付け加えていく。この作業を60fpsになるまで繰り返せば、できあがった動画はスムーズに動くようになる。

DAINを使えば、例えば30fpsで撮影された動画のフレームレートを480fpsまで上げることも可能だ。それを16倍のスーパースローモーションで再生しても、映像は滑らかで途切れることはない。しかし、30fpsの動画をそのまま16倍スローで再生すると、コマ数が足りずにどうしてもカクカクとしてしまう。

それは修復か、創作か

シリヤエフのシステムを利用すると、さらに信じられないようなこともできる。ぼんやりとした水滴のような人の顔から、表情まで細かく“再現”できるのだ。

ここで下の映像を観てほしい。オリジナルの映像は1910年代の東京の下町を撮影したものだが、画質が非常に悪く、特に人の顔はぼやけてしまってよくわからない状態だ。

そこに顔写真のデータセットで訓練されたAIを使うと、インクのしみのようにぼやけていた顔が本来ならどうだったのかを、一般的に「人間の顔」がどのようなピクセルによって成立しているのか学習したデータに基づいて推測してくれる。「でも、これが正しい顔であるかはわかりませんし、本当に100年前の人の顔がこんな感じだったのかもわかりません」と、シリヤエフは言う。

確かに、ここまで来ると難しいところだ。ぼやけた顔の細部をアルゴリズムによって加える行為は、彩色やフレームレートの補完と同じように、ある意味では過去の“創作”であるとも言える。

プレリンガー・アーカイヴズの共同創設者であるリック・プレリンガーは、こうした加工処理に批判的な専門家もいるのだと指摘する。プレリンガー・アーカイヴズは個人が撮影した動画や昔のテレビCM、教育動画など、一般的には保存の対象にならない映像を収集保管している。

フィルム保存の専門家のなかでも特に厳格な立場をとる人たちは、品質には関係なく古い映像はそのまま保存し、AIで処理するようなことはしない。ただ、プレリンガーは個人的には、シリヤエフのやっているようなことに特に問題は感じないのだと言う。「ムンクの『叫び』のパロディや、デュシャンがモナリザに口ひげ描いた例もあります。それは装飾であり解釈で、いわばリミックスなのです。リミックスをする権利は誰にでもあります」

プレリンガーはその上で、「そこまで多くのデータが追加されているとは知りませんでした」と言う。「だとすれば、それはもうフィクションです。どこまでが本物で、どこからが創作なのかわからなくなります。フィルムアーカイヴにおける“不気味の谷現象”だと言ってもいいでしょう」

100年前の映像は「不完全」だったのか?

さらに、昔の映像はどれも鮮明で当然であるとの誤解を与える恐れもある。映画の黎明期である20世紀初頭に使われていた機材はかなり原始的なものだし、フィルムそのものも100年という時を経てかなり劣化している。それに当時の映像の品質は映画の歴史を物語っているので、加工処理して“拡張”せず、そのまま保存していくべきとの意見もある。

この哲学的な議論について、ここでもう少し掘り下げてみよう。AIは動画を処理する際に、オリジナルの映像からはわからないものを付け加えた。例えば、ヴィクトリア朝の帽子の色が正しいかどうかは、誰にもわからない。

結果として生成された動画は非常に美しいものだ。しかし、それ以前の問題として、白黒でギクシャクとした「A Trip Down Market Street」は不完全な映像なのだろうか。

一方で、もちろん100年前も世界は色鮮やかで、クルマはスムーズに走っていた。こうしたことを考えたとき、究極的に現実を忠実に描写しているのは、オリジナルとAIで処理した映像といったいどちらなのだろうか。


人工知能について詳しく知りたい? 会員限定のコンテンツも公開中!

はたしてAIに倫理や哲学は必要だろうか。ダイヴァーシティやインクルージョンを理解できるだろうか。汎用型AIか特化型AIかという二元論を超えて、技術的特異点の真のインパクトを読み解く。


サイレント映画の時代との共通性

もうひとつ指摘しておきたいのは、“拡張”は何もいまに始まったものではないという点だ。サイレント映画の時代、劇場では上映の際に生演奏で音楽の伴奏が付くことが多かった。音楽はたいていの場合はバンドやオーケストラによる即興で、制作会社がオリジナル曲を用意するようになったのは1908年ころからだという。

音楽には映写機の作動音を聞こえなくする役割もあったが、作品にドラマ性が加わったことは間違いない。つまり、これもAIによる加工処理と似たようなものだと考えることもできる。映画館の伴奏者たちは即興演奏によって映画に独自の解釈を施したが、シリヤエフも同じように、AIが推測した20世紀初頭の世界というヴィジョンを利用して、古い映像をリミックスしたのだ。

シリヤエフは「映像を観た人たちはよく『タイムトラヴェルみたいだ』と言います」と語る。映画では時代設定に揃えて背景や衣装が変わるが、プレリンガーは次のように説明する。

「コメディ映画『スパイナル・タップ』でバンドのメンバーが、英国でスキッフルが流行していた時代にリヴァプールでバンドをやっていたらどうなっていたか、サイケデリックバンドだったらこんな感じだったのではないかと話す場面があります。そこで実際にそれを視覚化した映像が流れますが、それが面白いのです」

プレリンガーはまた、古い映像についてオリジナルとAI版と2種類が並存することには何の問題もないと付け加える。彼は「映像をそのまま正確に再現しようする試みは素晴らしいものだと思います」と言う。「ただ同時に、過去の映像から新しいものを生み出す行為にも反対はしません。それによって、こんなに昔の映像が残っていたという事実を知らしめることもできますから」

※『WIRED』による人工知能(AI)の関連記事はこちら


RELATED ARTICLES

人工知能について詳しく知りたい? 会員限定のコンテンツも公開中!

はたしてAIに倫理や哲学は必要だろうか。ダイヴァーシティやインクルージョンを理解できるだろうか。汎用型AIか特化型AIかという二元論を超えて、技術的特異点の真のインパクトを読み解く。


TEXT BY MATT SIMON

TRANSLATION BY CHIHIRO OKA