
何かを文字起こししたいが、ハッカーの目に触れる可能性のあるインターネット上にデータを残したくない場合がある。それは医師や弁護士との会話かもしれないし、記者による機密性の高いインタビューかもしれない。プライバシーとコントロールは重要だ。
そうしたプライバシーへの要望こそ、フランスのAI開発企業Mistral AIが、最新の文字起こしモデルをデバイス上で動作するほど小型にした理由の1つだ。これらのモデルは、スマートフォンやノートPC、あるいはクラウド上で実行できる。
現地時間2月4日に発表された新モデルの1つである「Voxtral Mini Transcribe V2」はバッチ文字起こし向けで、「超、超小型だ」とMistral AIの科学オペレーション担当バイスプレジデントであるPierre Stock氏は筆者に語った。もう1つの新モデル「Voxtral Realtime」はリアルタイムで文字起こしができる。
同社が小型のオープンウェイトモデルを構築したかった理由は、プライバシーだけではない。使用しているデバイス上で直接実行することで、これらのモデルはより速く動作できる。ファイルがインターネットを経由してデータセンターに送られ、また戻ってくるのを待つ必要はもうないのだ。
「ユーザーが求めているのは、文字起こしが自分のすぐ近くで実行されることだ」とStock氏は言う。「そして、ユーザーに最も近い場所といえばあらゆるエッジデバイス、つまりノートPCやスマートフォン、およびスマートウォッチなどのウェアラブル端末だ」
この低レイテンシ(すなわち高速性)は、特にリアルタイムの文字起こしにおいて重要となる。Voxtral Realtimeモデルは200ミリ秒未満のレイテンシで生成が可能だとStock氏は述べた。話者の言葉を、人間が読むのとほぼ同じ速さで文字に起こせる。字幕が追いつくのを2、3秒待つ必要はもうない。
Voxtral Realtimeモデルは、Mistral AIのAPIおよびHugging Faceを通じて利用可能で、試用できるデモも用意されている。
筆者が短時間テストした限りでは、生成はかなり速く(デバイス上で動作させた場合に期待されるほどではないが)、わずかにスペイン語なまりのある筆者の英語を正確に捉えることができた。Mistral AIによれば、現時点で13言語に対応しているという。
Voxtral Mini Transcribe 2も同社のAPIを通じて利用できるほか、「Mistral Studio」で試せる。筆者はこのモデルを使用して、Stock氏とのインタビューを文字起こししてみた。
素早く動作し、かなり信頼できそうだったが、一部の固有名詞には苦戦し、例えばMistral AIを「Mr. Lay Eye」、Voxtralを「VoxTroll」と記述した。そう、このAIモデルは自らの名称を間違えたのだ。ただしStock氏によれば、特定のタスクに使用する場合、ユーザーは特定の単語や名前、専門用語をより正確に理解できるようモデルをカスタマイズできるという。
小型で高速なAIモデルを構築する上での課題は、正確さも兼ね備えていなければならないことだとStock氏は語る。同社は、競合他社と比較してエラー率が改善されていることを示すベンチマーク結果を提示し、モデルの性能をアピールした。
「単に小型モデルを作ればいいというわけではない」とStock氏は言う。「必要なのは、大型モデルと同じクオリティを持つ小型モデルだ」
この記事は海外Ziff Davis発の記事を4Xが日本向けに編集したものです。
Amazonのアソシエイトとして、CNET Japanは適格販売により収入を得ています。