Gemini

先週の大きな話題としてGeminiの発表があった。非常に性能の高いマルチモーダルなLLM
Google Japan Blog: 最大かつ高性能 AI モデル、Gemini を発表 – AI をすべての人にとってより役立つものに (googleblog.com)

動画もテクニカルノート(gemini_1_report.pdf (storage.googleapis.com))の興味深いが、「We trained two versions of Nano, with 1.8B (Nano-1) and 3.25B (Nano-2) parameters, targeting low and high memory devices respectively.」という3B程度ではNano扱いというのもびっくり。BERT LARGEの10倍の規模なんだけど…と思うと進化の速さがよくわかる。

OneLLM

  • OneLLM: One Framework to Align All Modalities with Language [90.1]
    統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。 OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
    論文  参考訳(メタデータ)   (Wed, 6 Dec 2023 18:59:19 GMT)
  • マルチモーダルなLLMの提案、image, audio, video, point cloud, depth/normal map, IMU and fMRI brain activityとあまり見ないモーダルにも対応。Universal Encoder → Universal Projection Module → LLMなアーキテクチャでEncoderはFrozenとのこと。様々なベンチマークで高い性能を発揮。
  • リポジトリはGitHub – csuhan/OneLLM: OneLLM: One Framework to Align All Modalities with Language

GAIA: A Benchmark for General AI Assistants

  • GAIA: a benchmark for General AI Assistants [31.7]
    一般AIアシスタントのベンチマークであるGAIAを紹介します。 GAIAは、推論、マルチモーダリティハンドリング、Webブラウジング、一般的なツール使用の習熟度といった基本的な能力を必要とする現実世界の質問を提案する。 GAIAの質問は、人間にとって概念的には単純だが、ほとんどの高度なAIでは困難である。
    論文  参考訳(メタデータ)   (Tue, 21 Nov 2023 20:34:47 GMT)
  • AIアシスタントのためのベンチマーク、人が92%正解できる一方でツールのアシストがあってもGPT-4の正解率はレベル1でも30%程度と非常に難しく、人間とAIの差が大きく出るタスクになっている。
  • レベル1では5step程度の推論、レベル2では5-10ステップの推論+ツールの利用、レベル3では長いシーケンスの推論が必要とのこと。gaia-benchmark/GAIA · Datasets at Hugging Faceでサンプルがみられる。レベル3は検索しまくらないと解けなさそう。。
  • リポジトリはgaia-benchmark (GAIA) (huggingface.co)

Grammatical Gender’s Influence on Distributional Semantics: A Causal Perspective

  • Grammatical Gender’s Influence on Distributional Semantics: A Causal Perspective [100.5]
    言語間のジェンダーの割り当てにどの程度の意味が影響するかは、現代言語学と認知科学における活発な研究分野である。 我々は、名詞の文法的性別、意味、形容詞選択の間の相互作用を共同で表現する、新しい因果的グラフィカルモデルを提供する。 文法的ジェンダーが形容詞選択にほぼゼロ効果があることに気付き、ネオ・ヴォルフの仮説を疑問視する。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 13:58:13 GMT)
  • ドイツ語、ヘブライ語、ポーランド語、ポルトガル語、スペイン語のwikipediaダンプからcausal graphical modelを作り分析、「we provide further evidence against the neo-Whorfian hypothesis.」とのこと
  • 大規模データ+causal graphical modelでとても面白い

mPLUG-PaperOwl

  • mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model [73.4]
    本研究はマルチモーダルLLMのマルチモーダルダイアグラム解析機能を強化することに焦点を当てる。 高品質な論文のLatexソースファイルを解析することにより、マルチモーダルなダイアグラム理解データセットM-Paperを慎重に構築する。 M-Paperは、画像やラテックス符号のフォーマットの数字や表を含む、複数の科学的図の合同理解をサポートする最初のデータセットである。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 04:43:26 GMT)
  • 学術論文の図表を含むドキュメントを読解するためのデータ・モデルの提案、latexが取れるというのも大きいのだろうけど、分野特化は非常に有効に見える
  • リポジトリはmPLUG-DocOwl/PaperOwl at main · X-PLUG/mPLUG-DocOwl · GitHub

Continual Learningのサーベイ

  • Continual Learning: Applications and the Road Forward [111.3]
    継続的学習は、機械学習モデルが、過去に学んだことを忘れずに知識を蓄積することで、新しいデータを継続的に学習できるようにすることを目的としている。 我々は3つの主要な機械学習カンファレンスで発行された最近の連続的な学習論文を調査してステージを設定した。 機械学習における5つのオープンな問題について議論し、継続的学習が必然的にそのソリューションの一部であることを示す。
    論文  参考訳(メタデータ)   (Tue, 21 Nov 2023 15:17:00 GMT)
  • Continual Learningのサーベイ、講演資料が基になっているからか基礎からわかりやすい印象。

MEDITRON-70B

  • MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.3]
    大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。 医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
    論文  参考訳(メタデータ)   (Mon, 27 Nov 2023 18:49:43 GMT)
  • 医療特化型の大規模言語モデルの提案。最初のページの図が規模としても時間感覚としても分かりやすい。様々な評価がされているのでドメイン特化型の効果も把握できる。
  • リポジトリはGitHub – epfLLM/meditron: Meditron is a suite of open-source medical Large Language Models (LLMs).

Animate124

  • Animate124: Animating One Image to 4D Dynamic Scene [108.2]
    Animate124は、テキストによる動作記述を通じて、単一のWildイメージを3Dビデオにアニメーションする最初の作品である。 提案手法は,既存のベースラインよりも大幅に進歩したことを示す。
    論文  参考訳(メタデータ)   (Fri, 24 Nov 2023 16:47:05 GMT)
  • テキストでの動作記述+画像から3D動画を作成するAnimate124 (Animate-one-image-to-4D)の提案。デモが凄い。
  • リポジトリはAnimate124: Animating One Image to 4D Dynamic Scene

AlignBenchとCRITIQUELLM

中国語のアライメント評価のためのベンチマークと評価モデルの提案、リポジトリはGitHub – THUDM/AlignBench: 多维度中文对齐评测基准 | Benchmarking Chinese Alignment of LLMsGitHub – thu-coai/CritiqueLLM

データセットの規模は1000以下とそこまで大規模ではないがこの手の基盤づくりは日本語でもやっていきたいところ。「Additionally, a systematic evaluation of 17 Chinese-supported LLMs was conducted to identify their levels of alignment.」とあるが、評価結果はGPT-3.5を超えているものはあるが僅差でGPT-4には及んでいない、という状況のよう。

  • AlignBench: Benchmarking Chinese Alignment of Large Language Models [100.3]
    中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。 筆者らのベンチマークでは,多次元LCM-as-JudgeとChain-of-Thoughtを用いて,説明と最終評価を評価として用いた。 また, GPT-4の評価能力の95%を回復する専用コンパニオン評価器であるCritiqueLLMを開発した。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 17:41:30 GMT)
  • CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable Evaluation of Large Language Model Generation [89.8]
    我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。 実験結果から,GPT-4に匹敵する評価性能が得られた。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 16:52:42 GMT)

Responsible AI Considerations in Text Summarization Research: A Review of Current Practices

  • Responsible AI Considerations in Text Summarization Research: A Review of Current Practices [89.9]
    私たちは、責任あるAIコミュニティがほとんど見落としている共通のNLPタスクである、テキスト要約に重点を置いています。 我々は,2020-2022年に出版されたACLアンソロジーから333の要約論文の多段階的質的分析を行った。 私たちは、どの、どの、どの責任あるAI問題がカバーされているか、どの関係するステークホルダーが考慮されているか、そして、述べられた研究目標と実現された研究目標のミスマッチに焦点を合わせます。
    論文  参考訳(メタデータ)   (Sat, 18 Nov 2023 15:35:36 GMT)
  • テキスト要約に対するResponsibleAIのサーベイ、「 automatic text summarization systems have seen increasing use—despite the known risks of generating incorrect, biased, or otherwise harmful summaries.」は確かにそう思う一方で「Most papers do not discuss the limitations of their own work, and rarely include any ethical reflections.」とのこと
  • 人に何かを伝えるシステムではこの手の話題はとても重要。