「個人が特定できる解析はしない」バイドゥの日本語入力アプリ「Simeji」に音声AI新機能、開発者を直撃(BUSINESS INSIDER JAPAN)

Home » 媒体 » BUSINESS INSIDER JAPAN » 「個人が特定できる解析はしない」バイドゥの日本語入力アプリ「Simeji」に音声AI新機能、開発者を直撃(BUSINESS INSIDER JAPAN)
BUSINESS INSIDER JAPAN, IT総合 コメントはまだありません

6月14日、バイドゥはプレス向けに「百度AI技術を活用した新機能提供に関する説明会」を開催。同社のAIについての取り組みとともに、2011年に買収したスマートフォンやPC向けの日本語入力アプリ「Simeji」の機能強化について説明を行った。

【画像】Simejiの音声認識をデモ機でテストした様子。口語の言葉もキッチリ認識し、内容に合わせて絵文字も選ばれている。

検索サービスというと日本ではグーグルやヤフーのイメージが強いが、バイドゥも中国発の検索エンジンで事業を拡大してきた企業だ。中国で2000年にサービスをスタートし、現在では4万5000人を越える従業員をかかえる巨大企業だ。特に中国では、インターネット規制によってグーグルが中国国内で利用できないこともあり、中国では最大手の検索サービスだ。

一方、日本では2015年に検索サービスからは撤退している。現在はスマートフォンやPC向けの日本語入力アプリ「Simeji」と、ネイティブ広告のリコメンドサービス「popIn」、どちらも日本発でバイドゥが買収した2つのサービスをメインとして日本での事業を展開している。

発表会ではまずバイドゥ株式会社のチャーリー・ジャン社長から、中国本社の取り組みについての解説からスタートした。

検索エンジンをメインサービスとしてスタートしたバイドゥだが、現在はAI(人工知能)を使ったサービスへとシフトしているという。直近の2017年1月には、本国のグループ社長兼最高執行責任者(COO)に、米Yahoo!やマイクロソフトの幹部を務めたルー・キー氏が就任。ルー氏は米国でのAIに関する特許を自信で40件以上保有しているAIの専門家だ。ルー氏の就任を機に、同社のスローガンも「人々に最も平等かつ便利な情報をオンラインで提供する」という検索エンジンをベースとしたものから、「テクノロジーで複雑な世界をもっとシンプルに」とAIに関連したものへと変更されている。

バイドゥはAI分野を「AIアルゴリズム」「コンピューティングパワー」「ビックデータ」の3つジャンルに分けて研究しているが、そのなかでも鍵になる技術が「音声認識」だという。

たとえばひと口に中国語といっても、地域ごとに方言がありそれぞれ特徴のある音声になる。そこで地域ごとにデータを分類し、自己最適化を行なうことで、方言ごとの音声認識性能を向上させているという。このあたりは方言の多い日本語にも活用できそうな技術だ。

実際、日本語については個別に研究を進めている。ルー氏は「同音異義語が多いことと、長音、清濁音化、固有名詞の語彙数、句読点の位置」が日本語での音声入力時に難しいポイントだと解説。長音、清濁音化、固有名詞の語彙数については、アノテーションを強化して長音と単音やひらがな、カタカナを区別することで解決した。さらに句読点については、LSTM(Long short-term memory)深層学習モデルを使って適切な位置に配置できるという。

中国で研究されたこうした音声認識の技術を使ったのが、今回の「Simeji」の新機能になる。発表会ではSimejiの開発者でもあり、バイドゥ株式会社のプロダクト事業部部長の矢野りん氏がデモンストレーション披露。「従来の音声認識は句読点の位置もさることながら、絵文字などを入力するのも不便で、若者が敬遠していた」(矢野氏)。そこでSimejiの最新バージョンには、正確な日本語認識はもちろん、音声入力をしたあとに、入力内容に合った絵文字や顔文字をレコメンドしてくれる機能を搭載した。

デモンストレーションや発表会後のデモ機でテストをみると、たしかにふだん話している言葉使いが、そのまま精度高く認識される。さらに入力されたテキストを元に、関連した絵文字や顔文字も候補としてピックアップされる。これまで筆者もいくつかの音声認識を活用したサービスやアプリを使用してきたが、そのなかでも認識率はトップクラスという印象だ。

コメントを残す