創屋ぷれす

Vision Transfermer

AIの画像認識でまた一つ新しいモデルが登場しました。
参考: 画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説!

タイトルの盛り上げ感すごいですね。

このモデルが行う判定は、画像の物体認識です。
Vision Transformerでは画像をベクトル化(Flatten)し、
このベクトルを自然言語のように扱い、判定を行っています。
(Transformerは、言語の翻訳に使用されているモデル構造です。)

人は、考える時に言語化しているので
AIがより人に近づいたたのかなと思える面白いモデルだなと思えました。
(学習に3億枚の画像を使っている点もすごいと思えました)

Comments are closed.