Whisper:OpenAIの高性能ASR

OpenAIの音声認識システム。極めて大規模なデータ(全680,000時間、438,000時間は音声とトランスクリプトが両方英語、126,000 時間は音声が英語以外、117,000時間は音声・トランスクリプトともに英語以外。全98言語を使用。)が用いられており高性能。日本語の認識能力も高くコードやモデルが公開されているのも凄い。

多言語→英語への翻訳機能もあり相応の性能、Textless NLPの可能性を感じる

競技プログラミングレベルのコードを生成するAlphaCodeと数学オリンピックの問題を解くAI

コード自動生成や数学問題取り扱いなど難しい問題に対応できるAIが増えている。両方とも未来を感じるとともに怖さも感じる結果。