Moby Slick｜Findings｜Pomalo株式会社

Summary

イルカの言語と認識

イルカが音波を使って環境を認識をとっていることは広く知られています。

イルカが発する高周波の音波が物体に当たって反射し、その反射音をイルカが受け取ることで物体の位置、形状、距離、さらには物体の種類までを判断することができる、と言われています。ちなみにこの現象は「エコロケーション」と呼ばれています。

エコロケーションを通じてイルカが得る情報は、音波が物体に反射する際のパターンから得られます。

イルカはこれらの情報を組み合わせて、周囲の環境についての「音の地図」を作成します。

しかし、この「音の地図」は、人間が視覚を通じて得る色彩豊かな画像とは異なり、音波は色や光の明るさなどの情報を伝えることはできません。

そのため、イルカがエコロケーションを通じて得る情報は、人間が視覚を通じて得る情報とは異なる形での「画像」であると言えます。

音によって地図を表現できる、ということは、音という言語を使って「音の地図」= 「画像」を別のイルカに伝えることができることを意味します。

つまり、イルカは言語を介して（人間の認識と異なる）地図という2次元（正しくは3次元）の情報を共有することができるのです。

（実際にイルカがコミュニケーションとして行っているかどうかは研究段階で真偽不明ですが、原理的には可能です。）

ところで、
アメリカの言語学者エドワード・サピアとその学生ベンジャミン・リー・ウォーフによって提唱された、言語的相対論（サピア＝ウォーフ仮説）という仮説があります。

彼らは、人々が話す「言語」がその思考や認識を形成する、あるいは影響を与えると主張しました。

これは、特定の言語に特有の概念やカテゴリが、その話者の世界観や認識を左右するという考え方です。

「色」を使って説明されることが多い概念ですが、「ある言語が特定の色に対する単語を持っていない場合、その話者はその色を他の色と区別するのが難しい」と、そんな具合です。

言語が人間と全く異なるイルカは、世界をどう認識し、どのように思考しているのでしょうか？

生命体「Z」

深海の生態系は未だ99%以上が謎に包まれている、と言われます。

海の深く深く、光も届かないところに人間の知能を上回る生命体がいても不思議ではありません。

この生命体を「生命体Z」と名付けます。

「生命体Z」は、地球の深海に住む、想像を超えた知識と理解を持つ存在。

「Z」は我々人間がまだ理解できていない、あるいは言葉にできていない概念を把握し、それらを操る能力を持っています。

加えて、彼らの言語は非常に複雑で、音波や光、電磁波などを使って構成されています。

我々人間には理解できない「Z」の言語は、人間界で言うところの音楽のような特徴を持っています。

人間は「鯨」を見た時に、大きさや色、背ビレや尾ビレなどの特徴から「鯨」であることを判別します。

しかし、「Z」は、鳴き声や動き、感情の表現、その他人間が捉えられない情報を用いて、一つの「楽曲」として「鯨」を認識しています。

シンフォニーの各楽器の音の一つ一つが単一の楽曲を作り上げるようなもので、この「楽曲」こそが、「Z」にとっての「鯨」なのです。

AIの頭脳：潜在変数と潜在空間

実は、ここまでの話は「AIの頭脳」の話をしていました。

もはや私たちの「副操縦士」として、なくてはならない存在になりつつある「生成系AI（Generative AI）」は、潜在変数や潜在空間といった概念を裏側に持っています（正しくは生成モデルに限らないのですが）。

潜在変数や潜在空間はAIの”頭脳”の一部であり、AIが情報を理解するための道具、と言えます。

わかりやすく、文章による画像生成のモデルについて考えます。

「南極にいるペンギンの家族」という画像を生成するとき、画像生成AIは「南極」「ペンギン」「家族」という言語概念を何らかの方法で獲得し、それを画像という視覚情報に変換する能力を持っていなければなりません。

つまり、AIは文字や画像の学習によって、定量的に示される「南極」「ペンギン」「家族」という概念（特徴）を獲得しているのです。

このAIが持っている「概念」が潜在変数や潜在空間といった言葉で表されます。

しかしこの「概念」と人間の持つ概念は必ずしも一致しません。

人間は形状と大きさ、毛の色と模様・・などをもとに目の前の物体が「ペンギン」であるかを識別しますが、AIは「Z」のように全く別の言語・認識でペンギンを認識しているのです。

（横道にそれますが、どう「ペンギン」を認識しているかは人間同士でもバラバラです。「ペンギンのイラストを描いて」と言われた時、描くペンギンの特徴は千差万別になってしまいます。）

「Z」との関わり方

「Z」は音波や光、電磁波などを使った認知構造により、人間よりも遥かに優れた知識と理解力を手に入れています。

文章を画像に変換する生成モデルは、「わざわざ人間の言語に合わせて「Z」の持っている膨大な画像に関する知識を引き出している」と捉えることができます。

「KAWAII」は日本発で世界に広まった概念ですが、まだ言語化されていない「KAWAII」的な概念をZは大量に持っている、、というようなイメージです。

文章によって画像を生成するというインターフェースは、人間が表現できる概念に「Z」の描画能力を閉じてしまうと考えることができます。

「Z」との関わり方は大きく2つの方向に分けることができると私は考えています。

1つは解釈可能（セマンティック）な変数や空間を見つけるアプローチ。

これは「Z」と人間の共通言語・共通概念を見つけるようなもので、これによって人間は「Z」に指示を出すことが可能になります。

簡単に言えば、人間が「Z」を管理する、という思想です。

メリットは、AIの動作を理解できること、そしてAIの決定過程を理解し、その信頼性を評価することができることなどがあります。

一方、AIが探索できる解空間が制限されること、人間が理解できる形に情報を変換するため効率性を下がることなどのデメリットが考えられます。

もう1つは生成や最適化を「Z」に全面的に任せてしまう方法があります。

この場合は「Z」の能力を最大限活かすことができます。

これは、Webにおける広告最適化問題を考えるとわかりやすいです。「Z」はユーザーの行動を見て最適な広告を生成し、ユーザーの行動（例えば、クリックされたかどうかなど）によって良し悪しを判断し、より良い広告を自動で生成する学習を自動で行い、より最適な広告を生成していきます。この過程には人間は登場せず、「Z」はわざわざ人間にわかるように「翻訳」してあげる必要がありません。

このアプローチのメリットは、人間の理解を超えた領域で最適な解を見つけることができること、人間が見落としているかもしれない解を発見する可能性があることなどが考えられます。

一方で、デメリットとして、AIの挙動が不透明であること、それに伴って予期しない解が探索されることなどが考えられます。

私は、第三の方法として、ハイブリッドアプローチの探索が今後求められていく、と考えています。

一部の問題は人間が理解可能な形で解を見つけ、一方で他の問題に対しては「Z」に全面的に任せる、というアプローチです。

AIによる音楽生成の研究をしている徳井直生先生は、AI（「Z」）と人の共生による創造性の拡張を「サーフィン」というメタファーを使って説明していますが、非常に感覚的にわかりやすいメタファーです。

サーフィンにも似たところがあります。サーフィンは、波を選んだりターンをしたりという積極的な行為と、波に身をまかせるという受動性が混ざりあった行為です。まず波に乗るためには、いい波が来るところまで進んでパドルアウトしないといけない。さらにはいい波とそうでもない波を瞬時に見分けて、あとはいい波に乗って、身を任せる。
https://www.mashingup.jp/2019/06/singularity10_3.html

「Z」を支配するでもなく、支配されるでもなく、サーフィンをする。

そんな創造のあり方を探究していきたいと思います。

※ この文章は科学エッセイであり、厳密なAIの解説をしているわけではありません。ご了承ください。

Findings Top