【海外ITニュース速報】OpenAIの新技術を使って、ノートパソコンで音声をそのまま文字起こししてみた

【海外ITニュース速報】OpenAIの新技術を使って、ノートパソコンで音声をそのまま文字起こししてみた

I used OpenAI’s new tech to transcribe audio right on my laptop

OpenAIの新技術を使って、ノートパソコンで音声をそのまま文字起こししてみた

要約(英語):

OpenAI has launched a new open-source neural network meant to transcribe audio into written text. The company claims it “approaches human level robustness and accuracy on English speech recognition” and can also automatically recognize, transcribe, and translate other languages like Spanish, Italian, and Japanese. The company claims its code could “serve as a foundation for building useful applications and for further research on robust speech processing”. The company also hopes its ease of use will allow developers to add voice interfaces to a wider set of applications.

要約(日本語):

Openaiは、オーディオを書かれたテキストに転写するための新しいオープンソースニューラルネットワークを開始しました。同社は、「英語の音声認識に対する人間レベルの堅牢性と正確さに近づく」と主張し、スペイン語、イタリア語、日本語などの他の言語を自動的に認識、転写、翻訳することもできます。同社は、コードが「有用なアプリケーションを構築し、堅牢な音声処理に関するさらなる研究の基盤として機能する可能性がある」と主張している。同社はまた、使いやすさにより、開発者がより広いアプリケーションに音声インターフェイスを追加できるようになることを望んでいます。

本文:

By OpenAI, the company behind image-generation and meme-spawning program DALL-E and the powerful text autocomplete engine GPT-3, has launched a new, open-source neural network meant to transcribe audio into written text (via TechCrunch).

Openaiによると、Image-Generation and Meme-SpawningプログラムのDall-Eと強力なテキストAutocomplete Engine GPT-3の背後にある会社は、オーディオを書かれたテキストに転写するための新しいオープンソースニューラルネットワークを(TechCrunchを介して)開始しました。

It’s called Whisper, and the company says it “approaches human level robustness and accuracy on English speech recognition” and that it can also automatically recognize, transcribe, and translate other languages like Spanish, Italian, and Japanese.

Whisperと呼ばれ、同社は「英語の音声認識で人間のレベルの堅牢性と精度に近づく」と述べており、スペイン語、イタリア語、日本語などの他の言語を自動的に認識、転写、翻訳することもできます。

As someone who’s constantly recording and transcribing interviews, I was immediately hyped about this news — I thought I’d be able to write my own app to securely transcribe audio right from my computer.

インタビューを常に録音して転写している人として、私はすぐにこのニュースについて誇大宣伝されました。自分のアプリを書いて、コンピューターからオーディオをしっかりと書き写すことができると思いました。

While cloud-based services like Otter.ai and Trint work for most things and are relatively secure, there are just some interviews where I, or my sources, would feel more comfortable if the audio file stayed off the internet.

Otter.aiやTrintのようなクラウドベースのサービスは、ほとんどのことで機能し、比較的安全ですが、オーディオファイルがインターネットから離れた場合、私や私の情報源がより快適に感じるというインタビューがあります。

Using it turned out to be even easier than I’d imagined; I already have Python and various developer tools set up on my computer, so installing Whisper was as easy as running a single Terminal command.

それを使用することは、私が想像していたよりもさらに簡単であることが判明しました。私はすでにコンピューターにPythonとさまざまな開発者ツールが設定されているので、Whisperのインストールは、単一のターミナルコマンドを実行するのと同じくらい簡単でした。

Within 15 minutes, I was able to use Whisper to transcribe a test audio clip that I’d recorded.

15分以内に、Whisperを使用して、記録したテストオーディオクリップを転写することができました。

For someone relatively tech-savvy who didn’t already have Python, FFmpeg, Xcode, and Homebrew set up, it’d probably take closer to an hour or two.

Python、FFMPEG、XCode、およびHomeBrewセットアップをまだ持っていなかった比較的ハイテクに精通している人にとっては、おそらく1〜2時間近くになるでしょう。

There is already someone working on making the process much simpler and user-friendly, though, which we’ll talk about in just a second.

ただし、プロセスをよりシンプルでユーザーフレンドリーにすることに取り組んでいる人がすでにいます。

While OpenAI definitely saw this use case as a possibility, it’s pretty clear the company is mainly targeting researchers and developers with this release.

Openaiは間違いなくこのユースケースを可能性と考えていましたが、同社が主にこのリリースで研究者と開発者をターゲットにしていることは明らかです。

In the blog post announcing Whisper, the team said its code could “serve as a foundation for building useful applications and for further research on robust speech processing” and that it hopes “Whisper’s high accuracy and ease of use will allow developers to add voice interfaces to a much wider set of applications.” This approach is still notable, however — the company has limited access to its most popular machine-learning projects like DALL-E or GPT-3, citing a desire to “learn more about real-world use and continue to iterate on our safety systems.” There’s also the fact that it’s not exactly a user-friendly process to install Whisper for most people.

ウィスパーを発表するブログ投稿で、チームは、コードが「有用なアプリケーションを構築し、堅牢な音声処理に関するさらなる研究の基盤として機能する可能性がある」と述べ、「”Whisper”の高い精度と使いやすさにより、開発者が音声インターフェイスを追加できるようにすることを望んでいます。はるかに広いアプリケーションに。」このアプローチはまだ注目に値します。同社は、Dall-EやGPT-3などの最も人気のある機械学習プロジェクトへのアクセスが制限されています。。」また、ほとんどの人のために”Whisper”をインストールするのは正確にユーザーフレンドリーなプロセスではないという事実もあります。

However, journalist Peter Sterne has teamed up with GitHub developer advocate Christina Warren to try and fix that, announcing that they’re creating a “free, secure, and easy-to-use transcription app for journalists” based on Whisper’s machine learning model.

しかし、ジャーナリストのPeter Sterneは、Github開発者のAdvocate Christina Warrenと協力して、それを修正しようとし、Whisperの機械学習モデルに基づいて「ジャーナリスト向けに無料で安全で使いやすい転写アプリ」を作成していることを発表しました。

I spoke to Sterne, and he said that he decided the program, dubbed Stage Whisper, should exist after he ran some interviews through it and determined that it was “the best transcription I’d ever used, with the exception of human transcribers.” I compared a transcription generated by Whisper to what Otter.ai and Trint put out for the same file, and I would say that it was relatively comparable.

私はSterneに話をし、彼は、彼がプログラムをステージウィスパーと呼んで、彼がそれを通していくつかのインタビューを実行した後、それが「私がこれまでに使用した中で最高の転写であり、人間の転写者を除いて使用したことがある」と判断したと判断したと言いました。Whisperによって生成された転写を、Otter.aiとTrintが同じファイルに出したものと比較しましたが、比較的同等だったと思います。

There were enough errors in all of them that I would never just copy and paste quotes from them into an article without double-checking the audio (which is, of course, best practice anyway, no matter what service you’re using).

それらすべてに十分なエラーがあり、オーディオをダブルチェックせずに引用符を記事にコピーして貼り付けることは決してありませんでした(もちろん、使用しているサービスに関係なく、とにかくベストプラクティスです)。

But Whisper’s version would absolutely do the job for me; I can search through it to find the sections I need and then just double-check those manually.

しかし、Whisperのバージョンは私のために絶対に仕事をするでしょう。必要なセクションを見つけて、手動でそれらを再確認するだけです。

In theory, Stage Whisper should perform exactly the same since it’ll be using the same model, just with a GUI wrapped around it.

理論的には、ステージウィスパーは同じモデルを使用しているため、まったく同じように実行する必要があります。

Sterne admitted that tech from Apple and Google could make Stage Whisper obsolete within a few years — the Pixel’s voice recorder app has been able to do offline transcriptions for years, and a version of that feature is starting to roll out to some other Android devices, and Apple has offline dictation built into iOS (though currently there’s not a good way to actually transcribe audio files with it).

Sterneは、AppleとGoogleのTechが数年以内にStage Whisperを廃止できることを認めました。Pixel’sVoice Recorderアプリは何年もオフラインの転写を行うことができ、その機能のバージョンは他のAndroidデバイスに展開し始めています。また、AppleにはiOSに組み込まれたオフラインディクテーションがあります(現在、実際にオーディオファイルを転写する良い方法はありません)。

“But we can’t wait that long,” Sterne said.

「しかし、そんなに長く待つことはできません」とスターンは言いました。

“Journalists like us need good auto-transcription apps today.” He hopes to have a bare-bones version of the Whisper-based app ready in two weeks.

「私たちのようなジャーナリストは、今日、優れた自動転写アプリを必要としています。」彼は、ウィスパーベースのアプリのベアボーン版が2週間で準備ができていることを望んでいます。

To be clear, Whisper probably won’t totally obsolete cloud-based services like Otter.ai and Trint, no matter how easy it is to use.

明確にするために、”Whisper”はおそらく、Otter.aiやTrintのようなクラウドベースのサービスを完全に廃止するものではないでしょう。

For one, OpenAI’s model is missing one of the biggest features of traditional transcription services: being able to label who said what.

1つは、Openaiのモデルには、従来の転写サービスの最大の機能の1つが欠けています。誰が何を言ったかにラベルを付けることができます。

Sterne said Stage Whisper probably wouldn’t support this feature: “we’re not developing our own machine learning model.” The cloud is just somebody else’s computer — which probably means it’s quite a bit faster And while you’re getting the benefits of local processing, you’re also getting the drawbacks.

スターンは、ステージの”Whisper”はおそらくこの機能をサポートしないだろうと言いました:「私たちは独自の機械学習モデルを開発していません。」クラウドは他の誰かのコンピューターです。これは、おそらくかなり速く、ローカル処理のメリットが得られている間、欠点も得られることを意味します。

The main one is that your laptop is almost certainly significantly less powerful than the computers a professional transcription service is using.

主なものは、ラップトップがプロの転写サービスが使用しているコンピューターよりもほぼ確実に強力ではないことです。

For example, I fed the audio from a 24-minute-long interview into Whisper, running on my M1 MacBook Pro; it took around 52 minutes to transcribe the whole file.

たとえば、私は24分間のインタビューから、M1 MacBook Proで実行されているWhisperにオーディオを供給しました。ファイル全体を転写するのに約52分かかりました。

(Yes, I did make sure it was using the Apple Silicon version of Python instead of the Intel one.) Otter spat out a transcript in less than eight minutes.

(はい、私はそれがIntelのものではなくPythonのApple Siliconバージョンを使用していることを確認しました。)Otterは8分以内に転写産物を吐き出しました。

OpenAI’s tech does have one big advantage, though — price.

しかし、Openaiの技術には1つの大きな利点があります。価格です。

The cloud-based subscription services will almost certainly cost you money if you’re using them professionally (Otter has a free tier, but upcoming changes are going to make it less useful for people who are transcribing things frequently), and the transcription features built-into platforms like Microsoft Word or the Pixel require you to pay for separate software or hardware.

クラウドベースのサブスクリプションサービスは、専門的に使用している場合、ほぼ確実にお金がかかります(Otterには無料の層がありますが、今後の変更により、物事を頻繁に転写している人にとっては有用ではありません)。-Microsoft WordやPixelなどのプラットフォームでは、個別のソフトウェアまたはハードウェアに支払う必要があります。

Stage Whisper — and Whisper itself— is free and can run on the computer you already have.

ステージウィスパー – そして”Whisper”自体は無料で、すでに持っているコンピューターで実行できます。

Again, OpenAI has higher hopes for Whisper than it being the basis for a secure transcription app — and I’m very excited about what researchers end up doing with it or what they’ll learn by looking at the machine learning model, which was trained on “680,000 hours of multilingual and multitask supervised data collected from the web.” But the fact that it also happens to have a real, practical use today makes it all the more exciting.

繰り返しになりますが、Openaiは、安全な転写アプリの基礎よりも”Whisper”方に高い希望を持っています。そして、研究者が最終的に何をしているのか、訓練された機械学習モデルを見ることで彼らが学ぶことに非常に興奮しています。「Webから収集されたマルチリンギャルおよびマルチタスクの監視データの680,000時間」で。しかし、それがたまたま今日の実際の実用的な使用を行っているという事実は、それをさらにエキサイティングにします。

元記事

https://www.theverge.com/2022/9/23/23367296/openai-whisper-transcription-speech-recognition-open-source

Newsカテゴリの最新記事