OpenAI o3, Gemini 2.0 Flash Thinking, Genesis, Modern BERT

先週の大きなニュースはOpenAI o3でFrontierMath、ARC-AGI、SWE-benchなど難しいベンチマークで驚異的な性能を出している。12 Days of OpenAIは興味深い発表が多く、一方でAGIと言い切れるほどのものはなく、また、動画生成など分野によっては競合(GitHub – Tencent/Tencent-Hunyuan-Largeなど)の猛追も印象的だった。

12 Days of OpenAI | OpenAI
OpenAIの「12 Days」まとめ – ITmedia NEWS

GoogleもGemini 2.0 Flash Thinkingを発表(Gemini 2.0 Flash の思考モード  |  Gemini API  |  Google AI for Developers)、OpenAI o3の性能にも迫っていきそうな雰囲気を感じる。OSS界隈でもo3を目指す動きが盛り上がっていて期待できそう。

AGIを目指すとすると、推論(思考)性能はタスクによるとはいえかなり汎用的に人間(以上)レベルを達成できている感じで、今後は別機能(記憶とか自己改善とかEmbodiedとか)のインテグレーションがカギになりそう。Embodied AIに関連して先週はシミュレーション環境であるGenesisも話題になっていた。

華々しい発表ではなかったかもしれないがFinally, a Replacement for BERT: Introducing ModernBERTも重要な成果。decoder only全盛という感じではあるが、実務タスクを解く場合、BERT系列の選択肢は持っておきたいところ。

テキスト分類に何を使うか?(GPT-3? T5? ロジスティック回帰?)

  • Which Model Shall I Choose? Cost/Quality Trade-offs for Text Classification Tasks [40.1]
    本稿では,テキスト分類タスクに着目し,この課題の定量的分析を行う。 分類精度を主指標として,様々なモデルの分類器の性能を評価する。 次に、推論に必要なサンプルが多数存在するような状況におけるモデル選択について議論する。
    論文  参考訳(メタデータ)   (Tue, 17 Jan 2023 16:51:58 GMT)
  • テキスト分類を対象に、コスト・分類性能の観点からどのようなアプローチをとるべきか比較した論文。ざっくりとはGPT-3を使ってアノテーションコストをかけないのが良いのか、T5を使ってアノテーションコストを抑えつつトレーニングコストをかけるのが良いのか、ロジスティク回帰を使ってアノテーションを多めにしながらもトレーニングコストを抑えるのが良いのかを比較するものとなっている。
  • アノテーションコスト、トレーニングコスト、インファレンスコスト、性能を比較しているのは面白い。
  • (結局は目的次第ではありつつ)現時点では総合的にBERTやT5が有用そうな結果ではあるが、インファレンスが少ないならGPT-3も優秀で今後に期待が持てそうな気はする。

SimpleBERT: テキスト簡略化のための事前学習

  • SimpleBERT: A Pre-trained Model That Learns to Generate Simple Words [59.1]
    本研究では,テキストの簡易化を継続する事前学習手法を提案する。 我々は、継続事前学習に小規模な単純なテキストデータセットを使用し、簡単な単語を識別するために2つの方法を用いる。 語彙単純化タスクと文簡略化タスクの両方においてBERTを超えるSimpleBERTを得る。
    論文  参考訳(メタデータ)  参考訳(全文)  (Sat, 16 Apr 2022 11:28:01 GMT)
    • 単語をランダムにマスクするのではなく、単純な単語だけをマスクする方針で事前学習をしたBERTが通常のBERTよりテキスト簡略化タスクで有効だったという報告。
    • 事前学習の戦略の工夫で最終的な性能が上がるのは直感的にもそうだと思うし実用でも研究でも重要な視点。

PAEG(Phrase-level Adversarial Example Generation) を用いた機械翻訳モデルの頑健性向上

  • Phrase-level Adversarial Example Generation for Neural Machine Translation [75.0]
     エンドツーエンドのニューラルネットワーク翻訳(NMT)は目覚ましい進歩を遂げているが、ノイズの多い入力は通常、モデルが脆弱で不安定になる。拡張データとして逆例を生成することはこの問題を軽減するのに有用であることが証明された。 本稿では,モデルの堅牢性を高めるために,句レベル逆例生成(PAEG)手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 6 Jan 2022 11:00:49 GMT)
    • フェーズレベルの置き換えを用いたAdversarial Exampleを作成、その活用でモデルの頑健性向上を確認とのこと。生成にはBERTを活用。

Artの定量化、AI(言語モデル)の利用

  • Formal Analysis of Art: Proxy Learning of Visual Concepts from Style Through Language Models [10.9]
    本稿では,美術の視覚的要素と原理を用いて絵画を定量化する機械学習システムを提案する。 本稿では,絵画の視覚概念を学習する手法として,プロキシ学習(プロキシラーニング)を提案する。
    論文  参考訳(メタデータ)   (Wed, 5 Jan 2022 21:03:29 GMT)
    • 言語モデル(BERT, glove)を用いた芸術の視覚的要素の定量化に関する研究。アノテーションの少なさを補うために言語モデルを活用、芸術用のBERTを学習しなおしているなど手法も興味深い。

Point-BERT: 点群処理のためのBERT

  • Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling [104.8]
    BERTの概念を3Dポイントクラウドに一般化するための新しいパラダイムであるPoint-BERTを提案する。 提案したBERTスタイルの事前学習戦略は,標準点クラウドトランスフォーマーの性能を著しく向上することを示す実験である。
    論文  参考訳(メタデータ)   (Mon, 29 Nov 2021 18:59:03 GMT)

PeCo(Perceptual Codebook)によるBERTスタイルな画像事前学習の改善

  • PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers [102.8]
    本稿では、視覚変換器のBERT事前学習のためのより良いコードブックについて検討する。 対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。 提案した知覚コードブックが生成する視覚的トークンは,より優れた意味を持つことを示す。
    論文  参考訳(メタデータ)   (Wed, 24 Nov 2021 18:59:58 GMT)
    • Masked Autoencoders – arXiv最新論文の紹介 (devneko.jp)のようなBERTライクな事前学習にVQ-VAEを利用、視覚情報(画像)を離散的な情報(コードブック)に変換して扱う事で性能が向上したとの報告。
      • 見た物体に名前を付けていくことで学習を進めていく生物のような機構だなーと感じて面白さと気持ち悪さを感じる。
    • リポジトリはGitHub – microsoft/PeCo

LAnoBERT: BERTを用いたシステムログからの異常検知

  • LAnoBERT : System Log Anomaly Detection based on BERT Masked Language Model [2.0]
    システムログ異常検出の目的は、人間の介入を最小限に抑えながら、即座に異常を識別することである。 従来の研究では、様々なログデータを標準化されたテンプレートに変換した後、アルゴリズムによる異常検出が行われた。 本研究では,BERTモデルを用いた自由システムログ異常検出手法であるLAnoBERTを提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 18 Nov 2021 07:46:35 GMT)
    • BERTを用いたログからの異常検知で、ログパーサに依存せずに教師無しで優れた性能を達成とのこと。ログパーサ無しで性能を発揮できるのは面白い。

マルチリンガルモデルの効果、RemBERTがHugging Faceに

  • Are the Multilingual Models Better? Improving Czech Sentiment with Transformers [1.5]
    チェコ語における極性検出の課題を3つの感情極性データセットを用いて検討する。 我々は5つの多言語モデルと3つの単言語モデルを用いて微調整および実験を行う。 3つのデータセットすべてに対して、最先端の新たな結果が得られます。
    論文  参考訳(メタデータ)   (Tue, 24 Aug 2021 10:50:01 GMT)
    • チェコ語のセンチメント分析においてXLM-R-Largeがモノリンガルモデルを上回る性能を出したとの報告。マルチリンガルモデルの有効性を示していて、言語資源が少ない日本語にも参考になる結果のように思える。
  • 性能の良い事前学習済みマルチリンガルモデルモデルであるRemBERTがHuggngfaceに取り込まれており、このようなモデルの利用も広まっていくのだと思う。いまのところ日本語はT5などBERT以降の構造&モノリンガル大規模事前学習モデルで公開されているものが存在する。とはいえ、データセットの規模等を考えると海外研究機関のマルチリンガルモデルより上の性能を出し続けられるかは難しい気がしなくもない。
  • FuguMTのためにクロールしたデータセットでバイリンガル版T5とか作ろうかと思わなくもないがコスト的につらいなーと思う最近。

BERTを利用したテキスト分析を通した社会科学の研究

  • Changes in European Solidarity Before and During COVID-19: Evidence from a Large Crowd- and Expert-Annotated Twitter Dataset [77.3]
    我々は,NLPにおける教師付き機械学習の新たな課題として,社会的連帯という社会科学的概念とその反対である反連帯の概念を導入する。 我々は,複数のアノテータと2つのアノテーションアプローチ(専門家対群衆)を利用して2.3kの英語とドイツ語のつぶやきをアノテーションした。 これらのアノテーションを使って、複数のデータ拡張戦略でBERTモデルをトレーニングし、2019年9月から2020年12月までに27万以上のツイートを自動的にラベル付けし、ヨーロッパの言論が、時間とともにどのように発展していくかに関して評価する。
    論文  参考訳(メタデータ)   (Mon, 2 Aug 2021 17:03:12 GMT)
    • 一部のデータを人の手でアノテーション、BERT等を活用したモデルを訓練し、アノテーション対象外の大量のデータにラベルを付与、その結果を分析するという論文。実務的にもよく用いられる手法であり、有効な分析プロセスである。
    • 専門知識を持つ人とクラウドワーカーの結果を比較するなど、実用するうえで参考になる論文だと思う。