また1ヶ月ぶりくらいか?
例によってFB起稿記事の転載だが。
元記事は
コレ↓
スマホのタップ音から暗証番号を盗み出す、恐るべき盗聴手法の精度はいかに
こういうビジネス向け記事でも、
現在の瞬間的能力を一般に向けて講じる意味の
なんと無いことか?ってハナシ。
---
んー、嘗めてると痛い目に遭うと思うなあ(笑)。
> 「タップ音から入力キーを推測する」というのは
> とても興味深い研究ではあるが、
> 現実的な脅威になるには時間がかかるだろう。
わたしが院で修論を書いていた頃の音声認識は
そんなものだった。
言語は最小分割片として
音韻または音素 'phoneme' (半音素を単位とする場合もあるが)、
次に子音を伴う場合を含めて日本語の場合は母音単位になる
音節 ’syllable'、
意味を有する最小単位の
単語 'word'、
文を構成するための自立語+補語ユニットで構文的意味単位の
句 'phrase'、
或いは日本語の場合区切らず発話される
文節 'block'、
んで意味をもつ完全体の最小単位である
文 'sentence'
という多層の階層構造を持つ。
音素認識率は比較的小規模の処理ハードを用いるものでも
90年代半ば80%程度までは十分到達していたが
これだけを英語では 'spontaneous speech' と表現される
自由文発話(会議の録音から発言を書き起こすような用途)に応用しても
正直、何が書かれているのか理解困難な程度の出力しか得られない。
現実的には誤りが5%を切ってこないと実用にならず、
当時は上位概念の単語認識まで含めて90%台、
形態素解析(=品詞判別)を導入した文章認識で
目的の95%を超えるクラスの認識能力を得ていた。
※論文上では単語認識クラスで98%とかは平気で謳われていたが
正直、都合のいい語彙セット、都合のいい話者など
要は「それって『論文用』の環境でだよね?」ってのが
どこかで感じたなあ(苦笑)。
実際、日本語の不特定話者大語彙単語認識ではIBMがPC上で動作する
話者適応併用(つまり実質上、動作時は特定話者)の商用化を行っていたが、
評価用に買って使ってみて「コレが売りモノ?」ってレベルどまりだった。
つまり、本文に書かれているような
特定事例としての桁数マッチング、
パスワードに使われがちな単語マッチングなどの上位概念を踏まえ、
これだけでなく更に上位で認証装置を提供しているメーカーの癖や
ハードウェア的制約(メモリ量など)からの指定桁数のあり方など
構文に似たような階層制約を積み重ねて
観測信号の生じ得る空間を境界条件で区切ってゆけば
喩え素片認識精度は現状でも実認識能力の向上は
まだまだ大いに期待できるのである。
また、上述の90年代半ばの発話文章認識は
「実験室レベルで」達成していたようなレベルだった。
実験室レベルで、というのは
音声認識の前段である
音響解析(周波数分解とかの言語的論理を導入する以前の
物理的特徴抽出/信号解析)が既に行われたデータを用い、
かつそのデータの収録は鉄道の高架下などのような
極端に劣悪な雑音環境や突発的な外乱までは含まない
ともすれば防音室(無響室)で収録された理想的音声データの下での
性能である。
それを各研究所/研究室が予算を工面して買った
自前のハイエンドのEWSや中/大型コンピュータをそれ専用に割り充て
自分たちの閉じた環境の中で認識機能を実現していた。
ところが、だ。
現状、例えばSiriやGoogleアシスタント、
専用機ならポケトークを思い浮かべれば良い。
これらの音声認識はニアサイド(端末側)では音響解析だけ、
或いは軽度の前段的言語認識を行い
サーバに送る信号列の量を削減しておいて、
高精度の音声認識はファーサイド(ネットの向こう側)にある
非常に高速な大型コンピュータで行って
認識結果を端末に返す、というスキームを用いることが出来る。
ローカル処理では荷が重かった文章認識本体を
高速通信の発達のおかげで個々には負担できないような
大規模なハードウェアを
リモートに置いてシェア利用することで実現させ、
かつ、ローカル処理自体も
1000万円クラスのワークステーションでは
やっと100MIPS台だった程度の処理能力が、だな、
初期のSnapdragonでもMIPS換算値で2000~4000MIPS相当、
価格的に200分の1以下の普及モデルの現行スマホの
同400シリーズ600シリーズならその更に数倍。800系はもっと。
今やつまり平気で100倍もの性能があり、
桁違いに高度な音響解析と、
マイクアレイなどのハードウェア構成までを活用した
雑音除去などの周辺支援技術を駆使した実装が可能になっている。
このタップ音認識は音素認識とその上位(言語)概念をちょこっと
入れただけの極めて初等な話にしか届いておらず、
古くはユビキタスとか、今ではIoTと称されるような
ナンデモカンデモ接続されているネットワーク環境の中で
なぜスマートスピーカのマイクロフォンだけしか使わない前提に
とどまることができるのだろうかね?
自然言語の音声認識が民生でまともに使えるようになったのは
英語で10年ちょい前?もう少し早いか?
意味による制限や構文の難しい日本語でももう5年程度は経つ。
前出の日本語市場専用ハードのポケトークは2017年のものだ。
90年半ばからは20余年の時間を要しているが
ネット環境の技術加速は当時の微細化プロセスの加速に似ていて
あっというまに現在想定しなかったトポロジや
処理プラットフォームのネット上展開があるものだと考えるのが
自然だ。
音素相当の単タップ認識で30~50%でも、それだけ見るから
「脅威になるには時間がかかる」なんて安直に言ってられるのだな。
単タップ認識であくまでも現在は30~50%でも
単語の制約条件加算に相当する
暗証番号の各システムが指定する固定桁数や
記事中にある単語マッチングもそうだし、
この場合書き起こしではないので誤りまで含めて
例えば数十程度まで総当り入力試行のできる個数まで候補を絞れば?
意味認識が最終目的の音声認識と違い、
パス認証過程でのエラーリジェクト(=再試行要求に続く)も
「許容」に含めることのできるこの最終目的は
単に認証システムのセキュリティ障壁突破で十分なのである。
更に、その辺中にあるLED照明や
冷蔵庫からテレビからエアコンからを全て動員し、
マイクではない感圧/感熱センサまでをも転用した空気振動の収集で
スマホを操作する個人を100個単位の高精度センサが
その音圧を拾い上げるネットワークモニタリング環境を
構築して取り囲むことも十分ある中で
こういう暗証番号盗用の発想やトライアルを
あんまり軽く嘗めていると…(嗤)
デジタルデバイドなんてのはこういうところから始まるんだよ。
ちゃんと全体に思いを拡げられない大衆が
ノーテンキに自バカを放置する黎明期に
既に勝敗は決していたりするのである。
必ずしもこうなる、と言ってるのではないよ、念の為。
でもね、
これは大変に、そして
極めておもしろい研究テーマであるとわたしは感じるな。