AIによる音声の認識率は、複数の音が混ざると途端に精度がおちる。
NTTは特定の人物の声を10秒程度登録すると、その人の声が80%ほど認識できるようになったそうです。
また、複数のマイクを使って物体の位置や、形状を予測するという研究も行っているようです
浴室などカメラで監視したくない場所に設置でき、防犯、見守りなどへの応用を考えているそうです。
音声データが膨大にあるであろうnttならではの内容ですね。
参考記事には
文章から、画像を作成することができるようになるのでは?と書かれていますが
画像ではないものから、画像を作成するということ意味ではと予想し、まだ未来の話なのかなとおもいました