2023/04/29 - 偽日記@はてなブログ

●(昨日からのつづき)通常の実写映像では、まず、ある程度安定して動かないものとして、例えば建築物などの場＝環境の構造があり、そのなかで動くもの、例えば、自ら動く人間や、それ自身としては動かないが可動的なもの、グラスやテーブルや衣服のふわっとした部分などがある。そしてその「動くもの」も、安定的な構造と形を持っている。自ら動く人間の身体も、人体としての固い骨格構造を持ち、その構造の許す範囲内で動くのだし、一人一人が個別の顔を持ち、その範囲内で表情を変化させる。グラスにはグラスとしての固い形状があり、破壊しない限り一定だ。そしてその上で、不定形に揺らぐもの、例えば、光や煙などが被さってくる。そして何より、大前提として、空間が三次元である、という事実がぜったいてきなものとしてある。

しかし、AIが生成する映像では、上のような揺るぎのない場＝空間の階層構造そのものが絶対的ではなく、揺らいでいる。階層構造のあらゆるレベルが「同時に」生成されるので、空間の三次元性も、環境の構造も、人体の骨格構造も、オブジェクトの形状も、光や煙のゆらめきも、全てが同じくらいに安定的であり、同じくらいに不安定であるということになる。このような、三次元空間の基底的な階層構造の非絶対化が、あらゆるところに、あらゆるレベルに、細かいエラーを発生させる。

この「エラーのあり方」が、我々の深いところにある何かに触れる感じがある。

我々の知覚において、上記の階層構造がほぼ絶対的なものとして現れるのは、我々の外側にある「環境」そのものが、そのような構造を持っているからだろう。しかし我々もまた、外的な参照項から切り離されたとき、例えば夢のなかなどでは、この構造が揺らぐ。AIにとっての知覚対象であるデータ空間は、我々にとっての知覚対象である三次元空間とは構造がそもそも異なる。おそらくAIも、約定としての三次元的空間構造、約定としての人体の骨格構造、約定としてのオブジェクトの安定性などは、ある程度知ってはいるはずだ。しかしそれは、外的で絶対的な参照項ではなく、従うべき規則のようなものとして与えらていると思われる。そして「規則」は常に絶対ではない。

(追記。「規則」ではないのか。規則なしに、なんとなくふわっと出来てしまうこと―-文法を意識しなくても母国語を喋れてしまう、かのように-―が可能になったということが、今のAIの爆発的進歩につながっているのだから。)

故に、あり得ない空間構造、あり得ない物理的因果関係、あり得ない人体構造が、全体の三次元空間を決定的に破壊するまでには至らないレベルでの、ローカルなエラーとして現れる。この感じがすごいリアルなのだ。

AI text-to-video Movie Trailer - The Great Catspy - YouTube

●追記。上の動画からのスクショ。おそらくAIは人の脳にとても似ているのではないか。ただ、物理的環境と接する身体を持たないという点を除いて。

●追記。一枚目と四枚目の空間の感じ、構造的にガウディのコロニエ・グエルに似ているかも。空間の解釈格子が歪んでいて、しかも複数の歪んだ解釈格子が重ねられて、ぐしゃっと圧縮されている。流石に、ガウディの方がすごいけど。

ohmy.s8d.jp