AIが怖くて仕方ない

2019-06-13 2019-06-18

歌手のAIさんが怖いわけではないですよ？

AIの分野の進歩はすごいですね、日々面白いアイデアが出てきます。

最近気になった音声認識AI

今日気になったのはコチラ。

話している人の「声」だけでも、性別・年齢や、ときには出身地などの情報が判別できます。「Speech2Face」は人の声と話し方から話者の顔を予想して画像を生成するというAIで、音声から人の身体的特徴を導き出すために開発されています。
「声」から話者の顔画像を生成するAIが開発される

あくまで予測される顔なので、全然違う顔になったりもするようです。

声の特徴で性別・年齢・出身地などは分かりそうなので、色々な分野で使われそうですね。

今は精度が悪く、母国語以外を話すと別人になったりするようです。今後は精度が上がって、大坂に住む日本人の話す英語だとか判断してくれるようになるのでしょうね。

あと、音声認識のAIで最近面白いと思ったのはこちら。

赤ちゃんの泣き方はそれぞれですが、同じ理由からくる泣き方には共通の特徴があるのだとか。最新の研究では、自動音声認識に基づく特定のアルゴリズムを使用して赤ちゃんの泣き声の特徴を検出して認識します。
実現したら大助かり。赤ちゃんが泣いている理由を識別できるAIが開発中

医療関係者やベテランの母親は泣き声だけで分かるとか・・・。

実際、お腹がすいたのか、おしめを変えてほしいのか、抱っこしてほしいのか、寒いのか、赤ちゃんの要望は順にやって、泣き止むまで分かりません。実用化されると便利ですね。

話は最初に戻りまして、声から顔を予測するAI。

声だけで人物がピンポイントで当てられる技術が出てくるのは、時間の問題だと思われます。まだ、そういった音声認識AIはないようですが、コツコツ学習していけば実現は容易でしょうし、既に企業の内部などでは使われているかもしれません。

学習データとして、声と人物の画像がセットで手に入れば良いだけなので、世の中にはごまんと転がっています。テレビ番組とか学習用として良さそうですし、最近は動画配信が盛んなのでテレビの比ではないぐらい情報が集まりそうです。

あと、ラジオなどの音声情報も使えそうです。とりあえず人物の画像が手に入らなくても、音声データだけ持っておけば、将来的に街角で撮影された映像から、その声の持ち主が特定されるかもしれません。顔出しNGでお仕事されているナレーションのお仕事の人なども、顔バレしてしまうのかもしれませんね、怖い怖い・・・。

そもそも、街中の群衆から声を拾うなんて難しそうですが、既に群衆から特定の声だけ抽出する技術はあるようです。

騒々しい環境下で1人の話者の声だけを抽出できる「ディープラーニング（深層学習）型オーディオビジュアルモデル」をGoogleの研究者らが開発した。
グーグル、AIで「群衆の中から特定の声を抽出する技術」を開発

なんと音声はたったの5秒あれば、精度が95%も出てしまうそうです。

NECが5秒程度の音声から個人を認識できる声認証技術を開発。特定フレーズの読み上げではなく、自然な会話音声など、任意の言葉で認識できる。雑音にも強く、誤認識率は約5％という。
「5秒」の音声で本人確認、認識精度は95％　2020年に実用化へ――NEC、声認証の新技術

生体情報をちょっとでも残すと、人物が特定されるような時代が来るとなると、なんだか暗い気分になっちゃいます・・・。