PromptBench

  • PromptBench: A Unified Library for Evaluation of Large Language Models [33.8]
    大規模言語モデル(LLM)を評価する統合ライブラリであるPromptBenchを紹介する。 プロンプト構築、プロンプトエンジニアリング、データセットとモデルのローディング、敵のプロンプトアタック、動的評価プロトコル、分析ツールなど、研究者が使いやすく拡張した重要なコンポーネントで構成されている。
    論文  参考訳(メタデータ)   (Wed, 13 Dec 2023 05:58:34 GMT)
  • LLM(に対するプロンプト)の評価を行うためのフレームワーク。簡単に使えそう&便利そう
  • リポジトリはGitHub – microsoft/promptbench: A unified evaluation framework for large language models

Captum

  • Using Captum to Explain Generative Language Models [6.0]
    CaptumはPyTorchのモデル説明可能性のためのライブラリである。 本稿では、生成言語モデルの振る舞いを分析するために特別に設計された新機能を紹介する。
    論文  参考訳(メタデータ)   (Sat, 9 Dec 2023 07:35:24 GMT)
  • Pytorchのための説明用ライブラリ、Gradient系もPerturbation系も様々な手法が実装されているよう。
  • リポジトリはCaptum · Model Interpretability for PyTorch

SmartEdit

  • SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models [91.2]
    本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。 MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。 我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
    論文  参考訳(メタデータ)   (Mon, 11 Dec 2023 17:54:11 GMT)
  • テキストの命令による画像編集。対象を理解したうえで編集し、画像も綺麗で違和感が少ない。
  • プロジェクトサイトはSmartEdit (yuzhou914.github.io)、リポジトリはGitHub – TencentARC/SmartEdit、デモは準備中のよう

How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation

  • How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation [90.9]
    GPT-4Vは最も先進的な多モード基盤モデルとして機能する。 本研究は, GPT-4Vの動的環境における適応性と一般化能力について, 厳密に評価する。
    論文  参考訳(メタデータ)   (Wed, 13 Dec 2023 13:00:57 GMT)
  • GPT-4Vの環境変化に対する能力を検証した論文、CLIPやLLaVAとも比較。「Our findings reveal that while GPT-4V demonstrates notable adaptability and zero-shot generalization capabilities, its performance varies significantly across different scenarios of distribution shifts.」「our journey toward creating truly robust and versatile AI foundation models is ongoing」との結論。
  • リポジトリはGitHub – jameszhou-gl/gpt-4v-distribution-shift: Code for “How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation”

Geminiの評価

Geminiの評価に関する論文が出ている。

  • An In-depth Look at Gemini’s Language Abilities [49.9]
    OpenAI GPTとGoogle Geminiモデルの能力を比較する。 この分析は、さまざまな言語能力をテストする10のデータセットに対して実施します。 Gemini Pro は GPT 3.5 Turbo よりも近いがわずかに劣る精度を実現している。
    論文  参考訳(メタデータ)   (Mon, 18 Dec 2023 18:47:42 GMT)
  • Gemini Proに対する主として言語能力の評価。「we find that Gemini Pro achieves accuracy that is close but slightly inferior to the corresponding GPT 3.5 Turbo on all tasks that we benchmarked.」とのこと。Gemini ProはGPT-3.5と競合的、GPT-4と比べられていたのは主にGemini Ultraなので結果に違和感はない。
  • リポジトリはGitHub – neulab/gemini-benchmark

APIDocBooster

  • APIDocBooster: An Extract-Then-Abstract Framework Leveraging Large Language Models for Augmenting API Documentation [21.9]
    APIDocBoosterは、抽出的(長さ制限のない忠実な要約を可能にする)と抽象的要約(コヒーレントで簡潔な要約を生成する)の両方の利点を融合させる。 APIDocBoosterは2つのステージで構成されている。 Sentence Section Classification (CSSC) と UPdate SUMmarization (UPSUM) である。
    論文  参考訳(メタデータ)   (Mon, 18 Dec 2023 05:15:50 GMT)
  • APIのドキュメントを作成するためにセクション認識、抽出型の要約、抽象型の要約を組み合わせる手法を提案。通常の方法でGPT-4を使った場合に比べて優れているとのこと。単純にLLMを使うよりも問題を適切に分割していって使うと効果的という結果に見受けられる。

Gemini: A Family of Highly Capable Multimodal Models 

  • Gemini: A Family of Highly Capable Multimodal Models [517.1]
    マルチモーダルモデルの新たなファミリーであるGeminiは、画像、オーディオ、ビデオ、テキスト理解にまたがる優れた機能を示している。 ファミリーはUltra、Pro、Nanoサイズで構成されており、複雑な推論タスクからオンデバイスメモリに制約のあるユースケースまで幅広い用途に適している。
    論文  参考訳(メタデータ)   (Tue, 19 Dec 2023 02:39:27 GMT)
  • Gemini – arXiv最新論文の紹介 (devneko.jp) の論文、arXiv版。改めて驚きの著者数。

ReST meets ReAct

  • ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.5]
    外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。 エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。 引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
    論文  参考訳(メタデータ)   (Fri, 15 Dec 2023 18:20:15 GMT)
  •  Reinforced Self-Training (ReST) を適用したReAct-style LLM agentの提案。ReAct的な動くで作ったtrajectoryのうち良いものを使ってfull fine-tuningとかなりの計算量が必要そうな手法。 少ない回数のイテレーションで良い性能を出せるとのこと。
  • 「employing growing-batch reinforcement learning with AI feedback for continuous self-improvement and self-distillation.」とあるが、自分で学んでいけるAIがてきつつあるんじゃないかという気もする。

Using Large Language Models for Hyperparameter Optimization

  • Using Large Language Models for Hyperparameter Optimization [31.5]
    本稿では,高パラメータ最適化(HPO)において,基礎的大言語モデル(LLM)を用いて決定を行う。 実験的な評価により,LLMは従来のHPO法と同等あるいは同等に動作可能であることが示された。
    論文  参考訳(メタデータ)   (Thu, 7 Dec 2023 18:46:50 GMT)
  • LLMを用いたハイパーパラメータのチューニング、「LLMs provide useful feedback for the error messages, which is infeasible with traditional approaches. 」というのはLLMの利点(直後に「However, this can suffer from the challenges that affect current language models, such as hallucinations」ともあるが。。。)。

LLM360

  • LLM360: Towards Fully Transparent Open-Source LLMs [89.1]
    LLM360の目標は、すべての人がエンドツーエンドのトレーニングプロセスを透過的かつ再現可能にすることで、オープンで協力的なAI研究を支援することである。 LLM360の最初のステップとして、スクラッチから事前トレーニングされた2つの7BパラメータLSM、AmberとCrystalCoder、トレーニングコード、データ、中間チェックポイント、分析をリリースする。
    論文  参考訳(メタデータ)   (Mon, 11 Dec 2023 17:39:00 GMT)
  • オープンなLLMを作ろうという取り組み。AMBER: 7B English LLM pretrained on 1.3T tokens CRYSTALCODER: 7B English and code LLM pretrained on 1.4T tokensをリリース
  • プロジェクトサイトはLLM360 | Open-source LLMs for Transparency, Trust, and Collaborative Research 🚀