Can Unconfident LLM Annotations Be Used for Confident Conclusions? 

  • Can Unconfident LLM Annotations Be Used for Confident Conclusions? [34.2]
    大規模言語モデル (LLMs) は、様々なタスクにおいて、人間と高い合意を示してきた。 信頼性駆動推論(Confidence-Driven Inference)は、LCMの信頼度インジケータを組み合わせて、どのアノテーションを収集すべきかを戦略的に選択する手法である。
    論文  参考訳(メタデータ)   (Tue, 27 Aug 2024 17:03:18 GMT)
  • LLMと人間が手分けしてアノテーションをする状況下で、LLMのアノテーション及びLLMの信頼度を使って人間がやるべきアノテーションを選択する手法の提案。「We demonstrate the effectiveness of CONFIDENCE-DRIVEN INFERENCE over baselines in statistical estimation tasks across three CSS settings—text politeness, stance, and bias—reducing the needed number of human annotations by over 25% in each.」とのこと。
  • リポジトリはGitHub – kristinagligoric/confidence-driven-inference

Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models

  • Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models [33.2]
    Cybenchは、サイバーセキュリティタスクを特定し、それらのタスク上でエージェントを評価するためのフレームワークである。 エージェント能力を評価するために,gpt-4o,claude 3 opus,claude 3.5 sonnet,mixtral 8x22b instruct,gemini 1.5 pro,llama 3 70b chat,llama 3.1 405b instructの7モデルを評価する。
    論文  参考訳(メタデータ)   (Thu, 15 Aug 2024 17:23:10 GMT)
  • CTFコンペから抽出したタスクをLLMが解けるかのベンチマーク。ガイドなしだとまだまだ難しそうな感じ。閲覧時点ではClaude 3.5 Sonnet > GPT-4o > Claude 3 Opusで、オープン系のLlama 3.1 405B Instructは商用モデルに比べてかなり性能が低い。
  • リポジトリはCybench

LogicGame

  • LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.5]
    大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。 LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
    論文  参考訳(メタデータ)   (Wed, 28 Aug 2024 13:16:41 GMT)
  • ルールを用いた推論能力について、計画と実行の軸で評価するベンチマーク
  • GPT-4 turboとGPT-4o、Claude 3.5 sonnetの優秀さが目立つ

Large Language Model Driven Recommendation

  • Large Language Model Driven Recommendation [34.5]
    言語主導のレコメンデーションの出現は、リコメンデーションのための自然言語(NL)インタラクションの使用を解放した。 この章では、LLMの一般NL能力が、高度にパーソナライズされたRSを構築する新しい機会を導く方法について論じる。
    論文  参考訳(メタデータ)   (Tue, 20 Aug 2024 15:36:24 GMT)
  • LLMを用いたレコメンデーション。Surveyというよりは教科書の一部という感じ。

Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

  • Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.7]
    大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。 我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。 また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
    論文  参考訳(メタデータ)   (Tue, 20 Aug 2024 16:15:28 GMT)
  • 金融特化型のLLM、LLaMA3-8B をバックボーンとして金融能力を強化、CLIP+FinLlaMAなマルチモーダル版も構築。ベースモデル及びBoombergGPTを上回る結果、「Notably, FinLLaMA models exhibit comparable performance to GPT-4 in multimodal financial tasks despite their smaller size, highlighting their efficiency and effectiveness.」とのこと。
  • 途中の表でLLama3 8BよりLlama3.1 8Bのスコアが低い箇所があり、その差にも興味があるところ。
  • 「We present Open-FinLLMs, a series of financial LLMs trained using three comprehensive datasets tailored for different training stages」としてOpen FinLLMs – a TheFinAI Collection (huggingface.co)がリンクされているが現時点ではデータがないように見える。

HERMES 3, Jamba 1.5, Mistral-NeMo-Minitron-8B, Llama-3.1-Minitron-4B, BLIP-3

先週も公開モデルに関する報告が出ていた。HERMES 3はHERMESシリーズの最新版でLlama3.1ベース(Paper page – Hermes 3 Technical Report (huggingface.co))、Jamba1.5はTransformer-Mambaの混合アーキテクチャ。 Jamba-1.5-Largeはアクティブパラメータが94Bとこの手のモデルでは非常に大規模。最後のMinitronは以前紹介したアプローチで小規模化したモデルである。

  • Jamba-1.5: Hybrid Transformer-Mamba Models at Scale [30.9]
    提案するJamba-1.5は,Jambaアーキテクチャに基づく命令調整型大規模言語モデルである。 94Bのアクティブパラメータを持つJamba-1.5-Largeと12Bのアクティブパラメータを持つJamba-1.5-Miniの2つのモデルサイズをリリースする。 どちらのモデルも様々な対話型および命令追従型キャパビリティのために微調整されており、有効コンテキスト長は256Kである。
    論文  参考訳(メタデータ)   (Thu, 22 Aug 2024 17:38:59 GMT)
  • TransformerとMambaの混合アーキテクチャで高速なモデルJambaのアップデート。以前より大規模化している。Llama3.1やGemma、MistralなどのTransformerベースのアーキテクチャと比較されているが、スコア特性が違うように見えるのが興味深い。(データの差かもしれないが。。)
  • リポジトリはJamba-1.5 – a ai21labs Collection (huggingface.co)
  • xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.4]
    本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。 このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。 私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
    論文  参考訳(メタデータ)   (Fri, 16 Aug 2024 17:57:01 GMT)
  • xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs)
  • プロジェクトサイトは、GitHub – salesforce/LAVIS at xgen-mm

Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in? 

  • Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in? [40.5]
    我々は、英語中心のLLMが、その強い性能にもかかわらず、それぞれの支配言語に「思考」があるかどうかを考察する。 実験の結果,Llama2は内在言語として英語のみに依存しているのに対し,日本語固有のスワロー語とLLM-jpは日本語と英語の両方を使用し,二重内在言語を呈していることがわかった。 任意の対象言語に対して、モデルは最も密接に関連する潜在言語を優先的に活性化する。
    論文  参考訳(メタデータ)   (Tue, 20 Aug 2024 13:05:41 GMT)
  • Llama2、その日本語強化(日本語を用いた継続学習)バージョンであるSwallow、日本語・英語のバランスをとったコーパスで構築されたLLM-jpにおける多言語動作の比較。
  • 3モデルの挙動の違い、文化的側面がある新学期に関する問いの違いが面白い
  • 抽象度が進んだ数学や論理処理だと動作はどうなるんだろう?centricな言語が中心になるとして継続学習モデルだと日本語なんやろうか。

Can Large Language Models Understand Symbolic Graphics Programs?

  • Can Large Language Models Understand Symbolic Graphics Programs? [136.6]
    我々は、グラフィックコンテンツに関連する質問に答える能力の観点から、LLMの象徴的プログラムに対する理解を特徴づける。 シンボリックプログラムを理解するために、LLMはレンダリングされたビジュアルコンテンツに直接アクセスすることなく、対応するグラフィックコンテンツがどのように見えるかを想像する能力を持つ必要がある。 シンボルグラフィックスプログラムのセマンティック理解のための大規模なベンチマークを作成することで,LLMの評価にこのタスクを利用する。
    論文  参考訳(メタデータ)   (Thu, 15 Aug 2024 17:59:57 GMT)
  • コードのように表現した画像に対して質問に答えられるか?のベンチマーク。「This result suggests that how LLMs understand symbolic graphics programs is quite different from human.」とあるが、人間でできるんやろうか・・・。「For such a task, we create SGP-Bench, a benchmark that shows distinguishable results between LLMs and introduce the method of Symbolic Instruction Finetuning (SIT) that improves LLMs’ capability of understanding graphics programs.」のチューニング可能性が驚異的に思える。
  • リポジトリはSGP-Bench

CARE: A Clue-guided Assistant for CSRs to Read User Manuals

  • CARE: A Clue-guided Assistant for CSRs to Read User Manuals [21.9]
    ユーザマニュアル、特に情報豊富なものを読む際に、顧客サービス表現(CSR)のための読書アシスタントを構築するのに時間がかかります。 本稿では,CSRのための時間節約かつ注意深い読解支援システムであるCAREを提案する。 これにより、CSRは明示的な手がかりチェーンを通じて、ユーザマニュアルから適切なレスポンスを素早く見つけることができる。
    論文  参考訳(メタデータ)   (Wed, 07 Aug 2024 08:44:44 GMT)
  • CARE: Clue-guided Assistant for CSRs to REad user manuals の提案。現実的なユースケース
  • 「To overcome the shortage of supervised data, we adopt the self-supervised strategy for model learning.」など近年のLLMのみのアプローチとは異なる点が興味深い。

Self-Taught Evaluators 

  • Self-Taught Evaluators [77.9]
    本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。 我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
    論文  参考訳(メタデータ)   (Mon, 05 Aug 2024 17:57:02 GMT)
  • 基本的に簡単ではない評価を行うモデルを合成データ経由で作る研究。
  • 「Our Self-Taught evaluator with iterative training over these synthetic preferences greatly boosts the accuracy of a strong seed LLM (Llama3-70B-Instruct) as an evaluator, from 75.4 to 88.7 on RewardBench, a new state-ofthe-art for generative LLM-as-a-Judge methods.」とのこと。通常のモデル構築における合成データの有効性を鑑みると驚きではないものの、(これ以外でも最近のself-なんとかな報告を見ると)この方向性を突き詰めるとAGIに・・・という気がしないでもない。

Self taughtだとSTaR(Self-Taught Reasoner)関連も面白い。

  • Lean-STaR: Learning to Interleave Thinking and Proving [53.9]
    証明の各ステップに先立って,非公式な思考を生成するために,言語モデルをトレーニングするフレームワークであるLean-STaRを紹介します。 Lean-STaRは、Lean定理証明環境内のminiF2F-testベンチマークで最先端の結果を達成する。
    論文  参考訳(メタデータ)   (Sun, 14 Jul 2024 01:43:07 GMT)
  • Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking [34.6]
    自己学習型推論器の一般化であるQuiet-STaRについて述べる。 LMは、将来のテキストを説明するために各トークンで合理性を生成することを学ぶ。 GSM8KとCommonsenseQAではゼロショットの改善が見られた。
    論文  参考訳(メタデータ)   (Thu, 14 Mar 2024 17:58:16 GMT)
  • STaR: Bootstrapping Reasoning With Reasoning [39.5]
    自己学習推論(Slf-Taught Reason:STaR)は単純なループに依存し、多くの疑問に答えるために理性を生成する。 結果,STaRは最終回答を直接予測するモデルと比較して,複数のデータセットのパフォーマンスを著しく向上させることがわかった。
    論文  参考訳(メタデータ)   (Mon, 28 Mar 2022 03:12:15 GMT)