Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

  • Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.8]
    大規模言語モデルの自己改善のためのAlphaLLMを紹介する。 モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。 実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
    論文  参考訳(メタデータ)   (Thu, 18 Apr 2024 15:21:34 GMT)
  • Monte Carlo Tree Search + LLM、「we use the term option as a search node and propose option-level MCTS where each option represents a sequence of tokens, which can range from multiple tokens to several sentences.」というのが興味深く、性能向上にも寄与

On the Causal Nature of Sentiment Analysis 

  • On the Causal Nature of Sentiment Analysis [98.4]
    感性分析(SA)は、製品レビューのようなテキストで表される感情を特定することを目的としている。 本稿では2つのタスクの組み合わせとしてSAを定式化する。 予測タスクでは,LLMの性能向上のために,サンプルの裏側にある因果関係のメカニズムを用いる。
    論文  参考訳(メタデータ)   (Wed, 17 Apr 2024 04:04:34 GMT)
  • causally-awareで心理学を考慮したセンチメント分析手法の提案、効果検証。「we have formulated the task of SA into a prediction problem and a causal discovery problem.」(SA = sentiment analysis)と対象の問題を理解・分解したうえでLLMに解かせるというのは実務上重要になっていきそう、というのと、causal promptというのも興味深い。

RoT: Enhancing Large Language Models with Reflection on Search Trees 

  • RoT: Enhancing Large Language Models with Reflection on Search Trees [39.6]
    本稿では,木探索に基づくプロンプト手法の性能向上を目的としたLLMリフレクションフレームワークであるリフレクション・オン・サーチ・ツリー(RoT)について紹介する。 強力なLLMを使用して、以前の木探索経験からガイドラインを要約し、弱いLLMの能力を高める。 本稿では,RoTがより具体的で意味のあるガイドラインを生成するのを支援するために,歴史的検索プロセスから重要な情報を識別する新しい状態選択法を提案する。
    論文  参考訳(メタデータ)   (Mon, 08 Apr 2024 12:31:23 GMT)
  • x-of-thoughtのTではないが、類するものを改善するフレームワークの提案。面白く実用性はあるかもだが、公平な比較になってるのかはやや疑問。
  • リポジトリはhuiwy/reflection-on-trees (github.com)

JailBreakV-28K

  • JailBreakV-28K: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks [24.7]
    本稿では,大規模言語モデルのジェイルブレイクを成功させる手法が,MLLMのジェイルブレークに等しく有効かどうかを検討する。 MLLM への LLM ジェイルブレイク手法の転送性を評価するための先駆的なベンチマークである JailBreakV-28K を紹介する。 LLMの高度なジェイルブレイク攻撃と、最近のMLLMのジェイルブレイク攻撃によるイメージベースのジェイルブレイク入力により、20000のテキストベースのジェイルブレイクプロンプトを生成します。
    論文  参考訳(メタデータ)   (Wed, 03 Apr 2024 19:23:18 GMT)
  • MLLMへのJailbreakベンチマーク。「Our extensive experiments reveal that MLLMs inherit vulnerability from their LLM counterparts.」はまぁそうだろうと思いつつ・・・「In addition, text-based jailbreak attacks are more effective than image-based jailbreak attacks and are effective regardless of the image input.」は・・・
  • リポジトリはJailbreakV-28K/JailBreakV-28k · Datasets at Hugging Face

Stream of Search (SoS): Learning to Search in Language

  • Stream of Search (SoS): Learning to Search in Language [29.8]
    本稿では,言語における探索の過程をフラットな文字列として表現することで,言語モデルがどのように学習するかを示す。 本稿では,複数のシンボル検索戦略を抽出する統一言語を提案する。 この結果から,言語モデルでは,探索による問題解決や,異なる探索戦略を柔軟に活用する自己改善,新たな探索手法の発見などが可能であることが示唆された。
    論文  参考訳(メタデータ)   (Mon, 01 Apr 2024 06:50:52 GMT)
  • 言語モデルに探索戦略を教え込むことが可能そうという報告。「We find that SoS pretraining increases search accuracy by 25% over models trained to predict only the optimal search trajectory.」、「The finetuned SoS models solve 36% of previously unsolved problems, including problems that cannot be solved by any of the heuristic solvers.」、Transformerは非常に強力。。
  • リポジトリはkanishkg/stream-of-search (github.com)

AutoRace: AUTOmated ReAsoning Chain Evaluation

  • LLM Reasoners: New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models [25.5]
    完全自動推論チェーン評価のためのAutoRaceを導入する。 既存の推論アルゴリズムと新しい推論アルゴリズムのモジュール実装を標準化するためのライブラリである LLM Reasoners も開発している。
    論文  参考訳(メタデータ)   (Mon, 08 Apr 2024 06:35:09 GMT)
  • 推論過程を評価するベンチマーク。GPT-4を用いた自動評価。
  • プロジェクトサイトはHome | Reasoners (llm-reasoners.net)

METAL: Towards Multilingual Meta-Evaluation 

  • METAL: Towards Multilingual Meta-Evaluation [12.9]
    本研究では,多言語シナリオにおいて,Large Language Models (LLMs) を評価対象としてエンド・ツー・エンド評価を行うためのフレームワークを提案する。 要約作業のための母国語話者判定を含む10言語を対象としたデータセットを作成する。 GPT-3.5-Turbo, GPT-4, PaLM2を用いたLCM評価器の性能の比較を行った。
    論文  参考訳(メタデータ)   (Tue, 02 Apr 2024 06:14:54 GMT)
  • マルチリンガルなLLM評価フレームワークの提案、GPT-4はやはり優秀。だが「Finally, we analyze human and LLM reasoning and observe that LLMs often provide incorrect justifications for their scores, thus showing that more research is needed to be able to use LLM-based evaluators with confidence in the multilingual setting.」・・・。わりとよく言われていることではある・・・。
  • リポジトリはhadarishav/METAL: Code and data repo for NAACL’24 findings paper “METAL: Towards Multilingual Meta Evaluation” (github.com)

VisualWebBench

  • VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? [115.6]
    MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であることを示す。 Webドメインにおけるパフォーマンス評価は、包括的なベンチマークが欠如しているため、依然として課題である。 benchは、さまざまなWebタスクにわたるMLLMの機能を評価するために設計されたマルチモーダルベンチマークである。
    論文  参考訳(メタデータ)   (Tue, 09 Apr 2024 02:29:39 GMT)
  • マルチモーダルなLLMを対処としたWeb undestandingタスクのベンチマーク「VisualWebBench consists of seven tasks, and comprises 1.5K human-curated instances from 139 real websites, covering 87 sub-domains.」とそこそこの規模。結果はタスクによって異なるが、平均的にはClaude Sonnet > GPT-4V > Claude Opus > LLaVA-1.6-34B > Gemini Pro とやや意外。日本語版作りたいなーと思わなくもない。
  • リポジトリはVisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding?

Blessing or curse? A survey on the Impact of Generative AI on Fake News

  • Blessing or curse? A survey on the Impact of Generative AI on Fake News [45.0]
    現在、高品質で個別にターゲットとするフェイクニュースのマス作成を自動化することが可能である。 この調査は、2024年のフェイクニュースの検出と作成のためのジェネレーティブAIの研究と実用化に関する総合的な調査を提供する。
    論文  参考訳(メタデータ)   (Wed, 03 Apr 2024 19:14:45 GMT)
  • フェイクニュース作成と検出の両面から生成AIの影響を調査したサーベイ

From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples