【アレクサによる音操作】なぜ音声認識が日本で流行らないのか?【ジレンマを解説】

音声認識がなぜ日本で流行らないのか?
こんにちは。テクノロジーマニアのマサタカです。

みなさん、アレクサ使ってます?

アレクサでなくとも、音声操作を普段から使ってますでしょうか?

 

2020年になってもアレクサは普及されているとは言えません。

僕としては残念でならないですが、ちゃんと理由はあります。

 

日本ではなぜアレクサが流行らないのか?

今回はそこらへんを、わかりやすく解説をしていきます。



なぜ音声認識が日本で流行らないのか?

ずっと変わらない旧来のI/F

僕らが普段使っているデバイスといえば

  • パソコン
  • スマートフォン

がメインでしょう。

 

これらのI/Fは基本的には「目と指」です。

長らく、キーボードでタイプすることが基本となっていましたが、ここ最近はスマホでのタップ入力も主流と言えると思います。

当たり前すぎて、疑うこともないですが、これって本当に効率が良いのでしょうか?

 

目と指ではストレスがかかる

スマホが普及したことにより、多くの人が疲れ目肩こりになったと言われています。

普段の僕たちの生活から、これはよくわかると思います。

 

パソコンやスマホから文字や動画を読み取るのは、脳にとって相当の刺激です。(ここまで大量の情報を目から入れている時代はなかったでしょう)

指による操作も、脳にとってはストレスです。

 

僕たちは、1日の生活の中でかなりの時間をパソコンやスマホを操作しています。

目と指を使い倒すことにより、相当のストレスを毎日脳に与え続けています。

 

本当に求められるI/Fとは

それでは、どんなI/Fだったら良いのか?

僕は本当に人間にとって効率の良いI/Fは「耳と口」だと考えています。

それはなぜか?

 

僕たちはずっと昔の祖先から変わらない”コミュニケーション”と同じやり方だからです。

つまり、言葉でのやりとりです。

言葉でのやりとりが最も効率が良いと選択したので、そうなっているはず。

現に同じやりとりでも、チャットでやるより話した方が早いし楽なのはみな経験でわかるでしょう。

 

アレクサの存在

ここまでの流れで「それってアレクサのことだよね?」と考えたと思う。

補足:アレクサとは?
Amazonが開発したスマートスピーカー。しゃべりかけるだけで様々な情報を教えてくれたり、家電の操作などができる。画面もなく(あるエディションもある)耳と口だけで成立する。

アレクサの使い勝手については、詳しくはこちらの記事を見てもらいたい。

【スマートホーム】Alexa(アレクサ)と学習リモコンを導入したらすごく便利だった!

2020.01.09

 

じゃあなんでアレクサが普及しないのか、という話になる。

米国では家庭への普及率は25%に達したそうだが、日本ではたったの6%と言われている。(2019年時点)

これについて深堀りをしていく。

 

精度が最重要

なぜ日本で普及しないか、最大の理由はこれだと僕は考えている。

「認識の精度が悪い!」

 

実際使えば案外の精度の高さにビックリはするけど、やっぱりスマホとは比較にならない。

指での入力はそれほど正確なんです。

そうなると認識の精度がいかに上がるのか?はとても大事なピースになります。


AIモデルがキモ

精度について語るには、アレクサがどういう仕組みで動作しているかを知る必要がある

アレクサの動作は簡単に表すとこうだ。

アレクサの仕組み
人の声をマイクが拾う

音声をそのままクラウドにアップする

AIモデルで、音声をテキストにする

AIモデルで、テキストから構文解析する

解析結果から、適した回答をしゃべらせる

おわかりいただけると思うが、どう考えてもAIモデルの精度がキモとなるのです。

つまり、AIモデルの精度が上がればスマホと同じレベルの使いやすさにもなり得ます。

 

AIモデルはどう育てるのか

AIのモデルはどのようにして精度をあげるのでしょうか。ここでは専門的なことは省きます。

基本的にはこの3つで決まります。

AIモデルの精度を決める要因

  1. どんなアルゴリズムを使うか
  2. 適したパラメータに調整できるか
  3. 学習データの量が適切か

アルゴリズムはとても重要ですが、こと音声認識においてはほぼお決まりのモノがあります。

さらにパラメータの調整は時間をかけて試すしかないのが現状です。

問題は、最後の学習データの量です。

 

話し方はまさに十人十色。

10万人から100万データと100万人から10万データでは圧倒的に後者の方が優れたモデルが作れます。

そして学習データには「言語に依存」することは明らかです。

 

人口の差はかなり大きい

音声認識という分野では日本語はかなり不利な状況ということが分かったと思う。

英語を話す人口は世界で15億人と言われてます。中国人は13億人もいます。(当たり前たりまえだけど)

それに比較すると日本語は1億人ちょい。

 

構文の違いとか日本語はそもそも難しい問題とは別に、集められる学習データ量で差があるのは精度に大きく影響します。

音声による操作がやりやすいのは間違いなく英語や中国語になるでしょう。

 

キラーアプリが必要

そう考えた時に、どうすれば日本で音声認識が流行るのかを考えます。

使う人が少ないから、精度も上がらない。

精度が低いから、使う人も増えない。

このジレンマを壊すものは何でしょうか?

 

それは「便利だから使う」ではないアプリがカギになると僕は思っています。

つまり、「楽しいから使う」「みんながやってるから使う」というものです。

 

容易に思いつくのはゲームでしょうか。もしくはもっとくだらないおしゃべりチャットボットかも。

とにかく『音声データが多く集まる→本当に便利になるAIモデルが完成する』の流れで本格的な音声認識の普及となるでしょう。


まとめ

なぜ日本ではスマートスピーカーが普及しないのか?どうすれば流行るの?

というところを誰にもわかりやすく解説できたと思います。(できてたら嬉しい)

 

そういえば最近たまたま「人の声を使った」おもしろいアプリを発見しました。

コエステーション

コエステーション

Avex Inc.無料posted withアプリーチ

 

簡単に自分の声で合成音声が作れてしまうサービスです。(ホントにすごい!)

こういったアプリから、音声認識の普及がはじまるのかもしれません。無料なので是非試してみてほしい。

いつも言ってますが、「まず使ってみること」は本当に大事!