しゅみは人間の分析です

いらんことばかり考えます

alt属性充実してくれ

Googleは未だにwebの会社でもあるのでそのうち読み上げに対応するだろうと思っている。
そもそもHTMLのセマンティクスとして読み上げ用文字列に適当なのはalt属性であり、Google Homeのシステムはaltを優先度高くすることが予想できる。
cookpadの場合はユーザが投稿したレシピ文字列をそのままaltに突っ込むと読み上げるには冗長という問題があるかもしれない。
このときサマライズとか口語変換とかの研究が効いてきそうですが、実用性はどんなもんなのでしょうか。

余談

Google Homeのようなシステムを人工知能業界ではエージェントと呼ぶ。
定義は様々あり、

aidiary.hatenablog.com

Interface agent 計算機の新たな利用者インタフェース、利用者とコミュニケーションするソフトウェアがエージェントと呼ばれる。表情を持つなど擬人化されたものも多い。

がこの場合適切そう。ただのインターフェースというよりは、人間に近い点が強調されるときにエージェントと言ってた気がする。
文章考えるの面倒になったので以下、論だけ。*1

なんでGUIだけではなくエージェントが必要か
  • 人間ではないシステムを相手にすると、人間はナメてかかるから
  • 計算機上のシステムを使うシーンによっては、人間ぽいインターフェースが全く必要ないこともあるのだが、例えば人にものを教えてくれるシステムでは人間らしさがあるとよいとされる*2
  • その他として、人間は人間とコミュニケーションするからプロトコル合わせると人間が楽だよねとかありそう
例えば、広く普及したエージェントの一つとしてSiriがある
  • 人間(iOSの操作が難しい人)にとってやさしいインターフェース
  • 何らかの便利システムのインターフェースでしかないので、本質はシステムそのものであり、システムには目的がある
  • システムの目的を達成するのにソフトウェアだけで済む場合もあるが、ハードウェアがあるほうがより強い(便利)
Google Homeとは
  • Google Calendarの予定とかが確認できるらしい
  • 今のところハードウェア(エージェントの身体)はChromecastと一部の家電くらいで家電はこれから増えそう
  • つまり、Google Homeはエージェントインターフェースを主に売っていて、ハードウェアは他社のものを取り込んでいる
    • 当然だがハードウェアをいちから作って普及させるのはめちゃくちゃ大変
    • 成功すればとても儲かるプラットフォームになり、コマンドを入力するインターフェースだけ提供するのはGoogleの得意分野とマッチしていそう
    • この点が各社が家電制御エージェントを作っている背景だと思われる
    • 似たような構造として自動運転がある
音声認識インターフェースの問題点
  • 精度が命
    • 例えばキーボードの入力精度は100%といっても問題ないレベル
    • 90%とか論外で99%でもまだボタン一つに敵わない
  • 精度が悪いと人間が怒る
    • 耳が遠い人はよく怒られる
      • そもそも人間同士の意思伝達の精度が100%なのかという疑問はあるが……
  • 精度が悪くて入力ミスが発生すると困る
  • 既存の入力インターフェースが精度100%近いので、並んでから初めて勝負になる

以上。おわり。
実用的なエージェントが家庭に普及する流れになるのが思ったより早くて驚いている。SF感あってよいですね。

*1:scrapboxとかでブログ書くほうが性に合ってるかもしれない

*2:自明でよいと思うが適当に論文引っ張ってきた https://www.jstage.jst.go.jp/article/tjsai/19/3/19_3_184/_pdf