Large Language Model Alignment

  • Large Language Model Alignment: A Survey [42.0]
    大きな言語モデル(LLM)の潜在能力は疑いようもなく大きいが、不正確、誤解を招く、あるいは有害なテキストを生成できる。 この調査は、LLM向けに設計されたアライメント方法論を広範囲に探究する試みである。 また、モデルの解釈可能性や、敵の攻撃に対する潜在的な脆弱性など、健全な問題を調査します。
    論文  参考訳(メタデータ)   (Tue, 26 Sep 2023 15:49:23 GMT)
  • LLMのAlignmentに関するサーベイ。50ページ超と包括的なサーベイ。進展が速い…

MathVista

  • MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts [170.0]
    大規模言語モデル(LLM)とLMM(Large Multimodal Models)は、様々な領域において優れたスキルを示すが、視覚的文脈における数学的推論能力は公式には検討されていない。 MathVistaは、様々な数学的・視覚的なタスクから課題を解き放つために設計されたベンチマークである。 MathVistaは、数学的に集約的で視覚的にリッチな現実世界のタスクに対処できる汎用AIエージェントの開発において、将来の研究を加速させる。
    論文  参考訳(メタデータ)   (Tue, 3 Oct 2023 17:57:24 GMT)
  • 視覚情報を含む数学的推論能力のベンチマーク。FQA:figure question answering、GPS: geometry problem solving、MWP:math word problem、TQA: textbook question answering、VQA: visual question answeringで構成される。 
  • 現時点ではMultimodal Bardが最も高いスコアを達成とのこと(GPT-4Vとも一定程度比較は行っているようだが今後のアップデートに期待)いずれにしろ人間から比べるとだいぶ低いスコアで改善の余地は大きい。
  • どうでもよいがLarge Language Models (LLMs) とLarge Multimodal Models (LMMs) がややこしい
  • リポジトリはMathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Context

Benchmarking Large Language Models As AI Research Agents

  • Benchmarking Large Language Models As AI Research Agents [105.7]
    我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。 我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。 長期計画や幻覚など,LLMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
    論文  参考訳(メタデータ)   (Thu, 5 Oct 2023 04:06:12 GMT)
  • データ処理、アーキテクチャ選択、トレーニングプロセスなど、機械学習パイプライン全体を対象とするエージェント用ベンチマーク。タスクは良く研究されているものKaggleにあるもの最近のタスクなど様々。結果もGPT-4は優れているもののタスク間の差異が大きいように見える。
  • リポジトリはGitHub – snap-stanford/MLAgentBench

SCALE: Specialized Translation Models (STMs) + general-purpose Large Language Models (LLMs)

  • SCALE: Synergized Collaboration of Asymmetric Language Translation Engines [105.9]
    本稿では,コンパクトな特殊翻訳モデル (STM) と汎用大言語モデル (LLM) を1つの統合翻訳エンジンとして結合する協調フレームワークを提案する。 STMからの翻訳を3重項インコンテキストのデモに導入することで、SCALEはLLMの洗練とピボット能力を解放する。 実験の結果,SCALEは低リソース環境において,少数ショットLLM (GPT-4) と特殊モデル (NLLB) の両方を著しく上回っていることがわかった。
    論文  参考訳(メタデータ)   (Fri, 29 Sep 2023 08:46:38 GMT)
  • 特化型の翻訳モデルと汎用的なLLMを併用する機械翻訳
  • STMからの翻訳草案をLLMでrefineするイメージ(?)、低リソースな言語に対して特に有効とのこと。

GPT-4V, LLaVA-1.5

    GPT-4Vの登場でマルチモーダルモデルの活用が一気に進む感がある。さらにオープンな取り組みも進んでおり期待が大きい。

    • The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.4]
      大規模マルチモーダルモデル(LMM)は、より強力な汎用知性を達成するために、視覚的理解などの多感覚スキルを備えた大規模言語モデルを拡張する。 本稿では,GPT-4Vの能力の質と汎用性を調査するテストサンプルを含む,GPT-4Vが実行可能な興味深いタスクに焦点を当てた。 GPT-4Vの任意のインターリーブされたマルチモーダル入力処理における前例のない能力と、その能力の汎用性は、GPT-4Vを強力なマルチモーダルジェネラリストシステムにする。
      論文  参考訳(メタデータ)   (Fri, 29 Sep 2023 17:34:51 GMT)
    • GPT-4V(ision)のMSのよる評価。Visionの統合は自然な拡張であり、今までも研究され続けてきた分野ではあるが、GPT-4Vは強力なレベルになっているように見える。

    Analogical Prompting

    • Large Language Models as Analogical Reasoners [156.0]
      アナロジカル・プロンプティング(Analogical Prompting)は、大規模言語モデルの推論プロセスを自動的にガイドするように設計されている。 類推的推論にインスパイアされた我々のアプローチは、文脈における関連する経験や知識を自己生成するよう言語モデルに促す。 実験の結果,本手法は様々な推論タスクにおいて,0ショットのCoTと手動のCoTよりも優れていた。
      論文  参考訳(メタデータ)   (Tue, 3 Oct 2023 00:57:26 GMT)
    • 過去の経験を思い出すようにPromptを構成、高い性能を達成とのこと。5 shot CoTを超えているのに驚き。LLM内の知識はどんな量なんだろう。
    • 「Generating relevant and diverse exemplars is important」、「 Single-pass vs. independent exemplar generation: An alternative approach is to independently generate exemplars by separately sampling them from the LLM and then re-prompt the LLM with all the exemplars.」に対し、「single-pass prompt approach achieves comparable performance」、「Through experimentation, we have found that generating K = 3 to 5 exemplars works the best」などFindingsも興味深い。

    VidChapters-7M

    • VidChapters-7M: Video Chapters at Scale [110.2]
      VidChapters-7Mは、合計で7M章を含む817万のユーザチャプター付きビデオのデータセットである。 VidChapters-7Mは、ユーザーが注釈を付けた章をスクラップすることで、オンラインビデオから自動的にスケーラブルな方法で作成される。 VidChapters-7Mの事前トレーニングは、ゼロショットと微調整の両方で、高密度な映像キャプションタスクに適していることを示す。
      論文  参考訳(メタデータ)   (Mon, 25 Sep 2023 08:38:11 GMT)
    • ビデオチャプタ生成を対象としたデータセット
    • プロジェクトサイトはVidChapters-7M: Video Chapters at Scale (antoyang.github.io)

    KICT: Knowledgeable InContext Tuning framework

    • Boosting In-Context Learning with Factual Knowledge [39.9]
      In-Context Learning (ICL) over Large Language Model (LLMs) は、いくつかのトレーニング例を条件に、これまで見つからなかったタスクを解決することを目的としている。 本稿では、3つの中核面におけるICLの性能にfactual knowledgeが不可欠であることを実証する。 In-Context Tuning (KICT) フレームワークを導入し,ICLの性能向上を図る。
      論文  参考訳(メタデータ)   (Tue, 26 Sep 2023 09:06:39 GMT)
    • ICLの性能をさらに向上させる新しいチューニングフレームワークの提案
    • In context learningは強力であるので、このような研究の方向性も有望だと思う。

    A Comprehensive Review on Financial Explainable AI

    • A Comprehensive Review on Financial Explainable AI [29.2]
      金融の文脈における深層学習モデルの説明可能性向上を目的とした手法の比較調査を行う。 説明可能なAI手法のコレクションは,その特性に応じて分類する。 我々は、説明可能なAI手法を採用する際の懸念と課題を、適切かつ重要と考えられる今後の方向性とともにレビューする。
      論文  参考訳(メタデータ)   (Thu, 21 Sep 2023 10:30:49 GMT)
    • 金融におけるXAIのサーベイ、状況を概観するのに良い。金融分野へのXAIは必要性もありかなり導入されている印象がある。

    GPT-Fathom, NLPBench

    • NLPBench: Evaluating Large Language Models on Solving NLP Problems [41.0]
      大規模言語モデル(LLM)は、自然言語処理(NLP)の能力を高めることを約束している。 イェール大学の最終試験から得られた様々なNLPトピックにまたがる378の大学レベルのNLP質問を含む,ユニークなベンチマークデータセットであるNLPBenchを提案する。 GPT-3.5/4, PaLM-2, LLAMA-2などのLCMに着目した評価では, チェーン・オブ・シークレット(CoT)やツリー・オブ・シークレット(ToT)といった先進的なプロンプト戦略が取り入れられている。
      論文  参考訳(メタデータ)   (Wed, 27 Sep 2023 13:02:06 GMT)
    • NLPコースの試験から作られたデータセット
    • モデル×手法(Zero/Few shot, CoT, ToT)の結果が興味深い。
    • GitHub – LinxinS97/NLPBench: NLPBench: Evaluating NLP-Related Problem-solving Ability in Large Language Models