2019年08月01日
海外での報道によると、AI 開発(主に、音声認識と自然言語解析)を行っている企業が、利用者のプライバシーを侵害している恐れがあると報じています。
スマートスピーカーなどに搭載されているデジタルアシスタント機能において、音声認識と自然言語解析は核となる技術です。
これらの開発を行い、認識率を向上させるためには、AI の認識と人間の認識を一致させるために、多くの事例を用いて答え合わせが必要になります。
今回報道されている内容をみてみると、Google・Amazon・Facebook・Apple・Microsoft の各社が、自社のサービスが利用された際に収集した音声データを外部の企業に渡し、それを「人間」が実際に聞いて答え合わせをしていたにも関わらず、その「人間が聞く」という事に関して「明言していなかった」というのが問題となっているようです。
先にも書いたように、認識率を向上させるためにはこうした手法をとるのが一般的であり、各社の利用規約には「入力されたデータは、ユーザーが特定できない形式にした上で、機能向上のために保管され利用される」等の文言が入っているのですが、その「利用」方法についての認識が企業側と利用者側でズレていたと思われます。
問題を指摘された各社は、「人間による答え合わせをやめる(一時的な中止を含む)」「利用規約で明文化」「ユーザー側で利用の許可・不可を選択できる」等の対応を行っています。
今回の問題は日本のユーザーには直接関係していないようです。
しかし、認識率を向上させるためにはなんらかの方法による答え合わせを必要とします。
このコラムを書くにあたって日本語の特徴を考えてみました。(素人考えですが)
こうしてみると、日本語の音声をデータ化するためには、音声認識だけでは足りず、自然言語処理についての学習もかなり重要そうです。
そうなると、ますます「どうするのだろう?」という疑問が残りますね。