【海外ITニュース速報】Openai Open-Sources Whisper、多言語の音声認識システム

【海外ITニュース速報】Openai Open-Sources Whisper、多言語の音声認識システム

OpenAI open-sources Whisper, a multilingual speech recognition system

Openai Open-Sources Whisper、多言語の音声認識システム

要約(英語):

OpenAI has open-sourced Whisper, an automatic speech recognition system that claims to enable robust transcription in multiple languages as well as translation from those languages into English. The system was trained on 680,000 hours of multilingual and multitask data collected from the web, which led to improved recognition of unique accents, background noise and technical jargon. "Whisper is potentially quite useful as an automatic speech recognition solution for developers, especially for English speech recognition," said OpenAI. However, the system suffers from higher error rate when it comes to speakers of languages.

要約(日本語):

Openaiには、複数の言語での堅牢な転写とそれらの言語から英語への翻訳を可能にすると主張する自動音声認識システムであるオープンソーシングウィスパーがあります。このシステムは、Webから収集された680,000時間の多言語およびマルチタスクデータでトレーニングされたため、ユニークなアクセント、バックグラウンドノイズ、技術用語の認識が改善されました。「ささやきは、特に英語の音声認識のために、開発者にとって自動音声認識ソリューションとして非常に有用です」とOpenai氏は述べています。ただし、言語のスピーカーに関しては、システムはより高いエラー率に苦しんでいます。

本文:

Speech recognition remains a challenging problem in AI and machine learning. In a step toward solving it, OpenAI today open-sourced Whisper, an automatic speech recognition system that the company claims enables “robust” transcription in multiple languages as well as translation from those languages into English.

音声認識は、AIおよび機械学習において困難な問題のままです。それを解決するための一歩で、Openaiは今日、オープンソースされたささやき声、同社が主張する自動音声認識システムであり、複数の言語での「堅牢な」転写とそれらの言語から英語への翻訳を可能にします。

Countless organizations have developed highly capable speech recognition systems, which sit at the core of software and services from tech giants like Google, Amazon and Meta. But what makes Whisper different, according to OpenAI, is that it was trained on 680,000 hours of multilingual and “multitask” data collected from the web, which lead to improved recognition of unique accents, background noise and technical jargon.

無数の組織は、Google、Amazon、Metaなどのハイテク大手のソフトウェアとサービスの中心にある非常に有能な音声認識システムを開発しました。しかし、Openaiによると、Webから収集された680,000時間の多言語および「マルチタスク」データで訓練されたことは、Webからのマルチリンガルと「マルチタスク」データで訓練されたことであり、ユニークなアクセント、バックグラウンドノイズ、技術用語の認識が向上したことです。

“The primary intended users of [the Whisper] models are AI researchers studying robustness, generalization, capabilities, biases and constraints of the current model. However, Whisper is also potentially quite useful as an automatic speech recognition solution for developers, especially for English speech recognition,” OpenAI wrote in the GitHub repo for Whisper, from where several versions of the system can be downloaded. “[The models] show strong ASR results in ~10 languages. They may exhibit additional capabilities … if fine-tuned on certain tasks like voice activity detection, speaker classification or speaker diarization but have not been robustly evaluated in these area.”

「[Whisper]モデルの主要なユーザーは、現在のモデルの堅牢性、一般化、能力、バイアス、制約を研究するAI研究者です。ただし、Whisperは、特に英語の音声認識のための開発者向けの自動音声認識ソリューションとしても非常に便利です」と、OpenaiはGithub Repo for Whisperに書いており、システムのいくつかのバージョンをダウンロードできます。「[モデル]は、〜10の言語で強いASRの結果を示しています。彼らは追加の機能を示す可能性があります...音声アクティビティ検出、スピーカー分類、スピーカーのダイアリゼーションなどの特定のタスクで微調整されている場合、これらの領域では堅牢に評価されていません。」

Whisper has its limitations, particularly in the area of text prediction. Because the system was trained on a large amount of “noisy” data, OpenAI cautions Whisper might include words in its transcriptions that weren’t actually spoken — possibly because it’s both trying to predict the next word in audio and trying to transcribe the audio itself. Moreover, Whisper doesn’t perform equally well across languages, suffering from a higher error rate when it comes to speakers of languages that aren’t well-represented in the training data.

ささやきには、特にテキスト予測の分野での制限があります。システムは大量の「ノイズの多い」データでトレーニングされているため、Openaiは、実際に話されていない転写に単語が含まれる可能性があることに注意してください。。さらに、Whisperは言語間で等しくパフォーマンスを発揮しません。トレーニングデータには十分に表現されていない言語のスピーカーに関しては、より高いエラー率に苦しんでいます。

That last bit is nothing new to the world of speech recognition, unfortunately. Biases have long plagued even the best systems, with a 2020 Stanford study finding systems from Amazon, Apple, Google, IBM and Microsoft made far fewer errors — about 35% — with users who are white than with users who are Black.

残念ながら、その最後のビットは、音声認識の世界にとって新しいことではありません。バイアスは長い間最高のシステムを悩ませてきました。2020スタンフォードの調査では、Amazon、Apple、Google、IBM、Microsoftのシステムを見つけました。これは、黒人よりも白人のユーザーで、約35%のエラーをはるかに少なくしました。

Despite this, OpenAI sees Whisper’s transcription capabilities being used to improve existing accessibility tools.

それにもかかわらず、Openaiは、既存のアクセシビリティツールを改善するためにWhisperの転写機能が使用されていると考えています。

“While Whisper models cannot be used for real-time transcription out of the box, their speed and size suggest that others may be able to build applications on top of them that allow for near-real-time speech recognition and translation,” the company continues on GitHub. “The real value of beneficial applications built on top of Whisper models suggests that the disparate performance of these models may have real economic implications … [W]e hope the technology will be used primarily for beneficial purposes, making automatic speech recognition technology more accessible could enable more actors to build capable surveillance technologies or scale up existing surveillance efforts, as the speed and accuracy allow for affordable automatic transcription and translation of large volumes of audio communication.”

「Whisperモデルは箱から出してリアルタイムの転写に使用することはできませんが、その速度とサイズは、他の人がそれらの上にアプリケーションを構築できることを示唆しています。Githubで続けます。「ささやきモデルの上に構築された有益なアプリケーションの真の価値は、これらのモデルの異なるパフォーマンスが実際の経済的意味を持つ可能性があることを示唆しています。より多くのアクターが有能な監視技術を構築できるようにするか、速度と精度により、大量のオーディオ通信の手頃な自動転写と翻訳が可能になるため、既存の監視の取り組みを拡大することができます。」

The release of Whisper isn’t necessarily indicative of OpenAI’s future plans. While increasingly focused on commercial efforts like DALL-E 2 and GPT-3, the company is pursuing several purely theoretical research threads, including AI systems that learn by observing videos.

ささやきのリリースは、必ずしもOpenaiの将来の計画を示すものではありません。Dall-E 2やGPT-3などの商業的努力にますます焦点を当てていますが、同社はビデオを観察することで学習するAIシステムを含む、いくつかの純粋に理論的な研究スレッドを追求しています。

\

元記事

OpenAI open-sources Whisper, a multilingual speech recognition system

Newsカテゴリの最新記事