- LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods [21.6]
「LLMs-as-judges」は自然言語応答に基づく評価器である。 本稿では,5つの重要な視点から’LLMs-as-judges’パラダイムを包括的に調査する。 我々は,研究と実践の両方において,’LLMs-as-judges’の開発と適用に関する洞察を提供することを目的としている。
論文 参考訳(メタデータ) (Sat, 07 Dec 2024 08:07:24 GMT) - 最近多い、LLMs-as-Judgesのサーベイ。複数束ねるアプローチが多くなってきている印象もある
- リポジトリGitHub – CSHaitao/Awesome-LLMs-as-Judges: The official repo for paper, LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods.も参考になる
タグ: Survey
A Survey on LLM Inference-Time Self-Improvement
- A Survey on LLM Inference-Time Self-Improvement [15.0]
近年,テスト時の計算量の増加による推論向上技術が注目されている。 本稿では,最近の研究を包括的にレビューし,詳細な分類学に貢献し,課題と限界について議論する。
論文 参考訳(メタデータ) (Wed, 18 Dec 2024 21:37:07 GMT) - 最近要注目(?)のInference time self improvementのサーベイ。「We classify these methods into three categories: Independent Self-Improvement, which operates independently; Context-Aware Self-Improvement, which leverages external support (i.e. context and datastore retrieval); and Model-Aided Self-Improvement, which relies on external models for collaboration.」という軸で整理。
- リポジトリはGitHub – dongxiangjue/Awesome-LLM-Self-Improvement: A curated list of awesome LLM Inference-Time Self-Improvement (ITSI, pronounced “itsy”) papers from our recent survey: A Survey on Large Language Model Inference-Time Self-Improvement.
Machine Unlearning Doesn’t Do What You Think: Lessons for Generative AI Policy, Research, and Practice
- Machine Unlearning Doesn’t Do What You Think: Lessons for Generative AI Policy, Research, and Practice [186.1]
非学習はしばしば、生成AIモデルからターゲット情報の影響を取り除くソリューションとして呼び出される。 未学習はまた、モデルが出力中にターゲットとなるタイプの情報を生成するのを防ぐ方法として提案されている。 これら2つの目標 – モデルからの情報の標的的除去と、モデル出力からの情報のターゲット的抑制 – は、様々な技術的および現実的な課題を表す。
論文 参考訳(メタデータ) (Mon, 09 Dec 2024 20:18:43 GMT) - Machine unlearningに関する包括的な情報。「despite the intuitive alignment of the meanings of the words “removal” and “deletion,” it is unclear if technical removal is indeed necessary to satisfy deletion requirements in law and policy.」など技術的な部分以外への言及に力を入れた整理でとても参考になる。
A Survey on Large Language Model-Based Social Agents in Game-Theoretic Scenarios
- A Survey on Large Language Model-Based Social Agents in Game-Theoretic Scenarios [44.0]
ゲーム理論のシナリオは、Large Language Model(LLM)ベースのソーシャルエージェントの社会的インテリジェンスを評価する上で重要なものとなっている。 本調査では,研究成果をゲームフレームワーク,ソーシャルエージェント,評価プロトコルの3つのコアコンポーネントにまとめる。
論文 参考訳(メタデータ) (Thu, 05 Dec 2024 06:46:46 GMT) - ゲーム理論な文脈でのLLM based Agentsのサーベイ。
Personalized Multimodal Large Language Models: A Survey
- Personalized Multimodal Large Language Models: A Survey [128.0]
マルチモーダル大言語モデル(MLLM)は、最先端の性能と複数のデータモダリティを統合する能力により、ますます重要になっている。 本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
論文 参考訳(メタデータ) (Tue, 03 Dec 2024 03:59:03 GMT) - MLLMのパーソナライズに関するサーベイ。テキスト生成、画像生成、レコメンデーション、検索が対象。
Surveying the Effects of Quality, Diversity, and Complexity in Synthetic Data From Large Language Models
- Surveying the Effects of Quality, Diversity, and Complexity in Synthetic Data From Large Language Models [12.9]
データ品質,多様性,複雑性の観点から,各アルゴリズムが生成した合成データの構成によるアルゴリズムの評価を行った。 合成データパイプラインにおける各種成分が各データ特性に与える影響について検討する。 これらのトレードオフのバランスは、将来の自己改善アルゴリズムの開発に不可欠である、と我々は主張する。
論文 参考訳(メタデータ) (Wed, 04 Dec 2024 02:47:45 GMT) - 合成データに関するQuality、Diversity、Complexityからのサーベイ。「Overall, we found that domain specific, attribute measures utilizing LLMs-as-a-judge provide the best measures in complex tasks and domains in terms of correlation with downstream metrics.」という記載が興味深いところ。
Large Language Model-Brained GUI Agents: A Survey
- Large Language Model-Brained GUI Agents: A Survey [43.2]
マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。 彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。 これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
論文 参考訳(メタデータ) (Wed, 27 Nov 2024 12:13:39 GMT) - GUI Agents with Foundation Models: A Comprehensive Survey – arXiv最新論文の紹介ににたサーベイだが、こちらはMicrosoftの研究者が筆頭著者。
SoK: Watermarking for AI-Generated Content
- SoK: Watermarking for AI-Generated Content [112.9]
ウォーターマーキングスキームは、AI生成コンテンツに隠された信号を埋め込んで、信頼性の高い検出を可能にする。 透かしは、誤情報や偽造と戦ってAIの安全性と信頼性を高める上で重要な役割を果たす。 本研究の目的は、研究者が透かし法や応用の進歩を指導し、GenAIの幅広い意味に対処する政策立案者を支援することである。
論文 参考訳(メタデータ) (Wed, 27 Nov 2024 16:22:33 GMT) - Wartermarkingに関するサーベイ。
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.9]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。 開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。 この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (Fri, 22 Nov 2024 18:59:54 GMT) - MLLMの評価に関するサーベイで、リポジトリ GitHub – BradyFU/Awesome-Multimodal-Large-Language-Models at Benchmarks が非常に充実。
A Survey on LLM-as-a-Judge / From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge
LLM as a judgeの必要性は至る所で指摘されていて、論文もとても多い。先週2つのサーベイがでていた。いずれも複数研究機関の研究者による共著でリポジトリを公開する形式となっている。1研究機関のチームで調査するのはしんどい時代になっているのだろうか。。。(後者のリポジトリ公開は非常にありがたい)
- A Survey on LLM-as-a-Judge [10.3]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めています。 LLMは、従来の専門家主導の評価に代わる魅力的な代替手段である。 LLM-as-a-Judgeシステムはどうやって構築できるのか?
論文 参考訳(メタデータ) (Sat, 23 Nov 2024 16:03:35 GMT) - リポジトリはGitHub – IDEA-FinAI/LLM-as-a-Judge
- From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge [32.6]
人工知能(AI)と自然言語処理(NLP)において、長い間、評価と評価が重要な課題であった。 大規模言語モデル(LLM)の最近の進歩は”LLM-as-a-judge”パラダイムを刺激している。
論文 参考訳(メタデータ) (Mon, 25 Nov 2024 17:28:44 GMT) - プロジェクトサイトはLLM-as-a-judge、リポジトリ(論文リストなど)はGitHub – llm-as-a-judge/Awesome-LLM-as-a-judge