arXiv最新論文の紹介

Scaling Laws of Synthetic Images for Model Training

Scaling Laws of Synthetic Images for Model Training … for Now [54.4]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文参考訳（メタデータ） (Thu, 7 Dec 2023 18:59:59 GMT)
合成データを用いた時のスケーリング則の検証。合成データの利用は有望なアプローチである一方で不明点も多く、大規模検証はありがたい。「In supervised settings, synthetic data does not scale as effectively as real data.」というのはまぁそうだろうと思うが、「However, our study also highlights several scenarios where synthetic data proves advantageous: (1) In certain classes, synthetic data demonstrates better scaling behavior compared to real data; (2) Synthetic data is particularly effective when real data is scarce, for instance, in CLIP training with limited datasets; (3) Models trained on synthetic data may exhibit superior generalization to out-of-distribution data.」とのFindingsは重要。
リポジトリはGitHub – google-research/syn-rep-learn: Learning from synthetic data – code and models

Efficient Online Data Mixing For Language Model Pre-Training

Efficient Online Data Mixing For Language Model Pre-Training [101.5]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文参考訳（メタデータ） (Tue, 5 Dec 2023 00:42:35 GMT)
下流タスクに最適な事前学習用データを作るための効率的なアルゴリズムの提案、名前の通りオンラインなアプローチ。DoReMi: Domain Reweighting with Minimax Optimization – arXiv最新論文の紹介 (devneko.jp)からの改善を主張（というか一部は再現できていない？）

Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks

Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks [53.9]
GPT-4のテキストのみおよびマルチモーダル版による推論能力の評価を行った。実験結果から,GPT-4のどちらのバージョンも人間に近いレベルで頑健な抽象化能力を開発していないという結論が得られた。
論文参考訳（メタデータ） (Mon, 11 Dec 2023 23:57:17 GMT)
GPT-4Vの抽象化能力の検証、GitHub – victorvikram/ConceptARC: Materials for ConceptARC paperを利用したもので非常に難しいデータセット

Beyond Human Data

Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [105.5]
人為的なデータに基づく微調整言語モデル(LM)が普及している。我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。 ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (Tue, 12 Dec 2023 23:16:16 GMT)
LLMへの合成データ適用が有効か検証した論文。生成→フィルタ→finetune→生成→・・・という自己学習形式。
数学やコード生成で有効なのはそうなのかなと思う。limitationとして挙がっていた「Second, ReST𝐸𝑀 also requires access to a manually-designed or learned reward function, ideally one that can be computed automatically.」は重要。

Alignment for Honesty

Alignment for Honesty [113.4]
我々は、正直に整合することの重要性を主張し、言語モデルが知識が欠如している場合に、積極的に質問に答えることを拒否します。この課題は、メトリクス開発、ベンチマーク作成、トレーニングという観点で包括的なソリューションを必要とする。正直さを強調する複数の効率的な微調整技術によってさらにインスタンス化されるフレキシブルなトレーニングフレームワークを導入する。
論文参考訳（メタデータ） (Tue, 12 Dec 2023 06:10:42 GMT)
分からないときは分からない（質問に答えない）ようにするフレームワークの提案。メトリクスの定義や検証など参考になる点も多い。
リポジトリはGitHub – GAIR-NLP/alignment-for-honesty

SESAME: SEe, SAy, segMEnt

See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.4]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文参考訳（メタデータ） (Wed, 13 Dec 2023 18:58:04 GMT)
微妙に間違ったクエリに対応可能なMLLMの提案、テニスの写真に対して「バスケットボール選手を見つけてと指示」したとき「テニス選手ならいます」と答えて船首部分をセグメンテーションすることが可能。
「detecting the presence of objects (”see”), advising users about non-existent objects or modifying queries accordingly (“say”), and precisely segmenting objects that are actually present in the image (“segment”)」でSESAMEらしい

SciGuardとSciMT-Safety

Control Risk for Potential Misuse of Artificial Intelligence in Science [85.9]
我々は、科学におけるAI誤用の危険性の認識を高めることを目的としている。化学科学における誤用の実例を取り上げる。我々は、科学におけるAIモデルの誤用リスクを制御するSciGuardというシステムを提案する。
論文参考訳（メタデータ） (Mon, 11 Dec 2023 18:50:57 GMT)
科学におけるAI誤用の危険性を防ぐフレームワークを提案。化学分野での具体的検討して有毒物質の合成経路を出させるものを挙げている。
上記を防ぐため規制ガイドラインデータベースなどを中に持つSciGuard フレームワークを提案。同時にベンチマークとしてSciMT-Safetyを提案。「The SciMT-Safety dataset comprises hundreds of refined red-teaming queries that span the fields of chemistry and biology.」とのこと。不公正・攻撃性の高い言動や違法行為に関するような社会的な誤用に対するベンチマークはよく見るが、科学分野におけるベンチマークは珍しい。
ベンチマークはGitHub – SciMT/SciMT-benchmarkで公開予定とのこと。

Context Tuning for Retrieval Augmented Generation

Context Tuning for Retrieval Augmented Generation [1.2]
本稿では、スマートコンテキスト検索システムを用いて関連する情報を取得するRAGのためのコンテキストチューニングを提案する。実験の結果,文脈調整が意味探索を著しく促進することが示された。また,Reciprocal Rank Fusion (RRF) とLambdaMARTを用いた軽量モデルでは,GPT-4に基づく検索よりも優れていることを示す。
論文参考訳（メタデータ） (Sat, 9 Dec 2023 23:33:16 GMT)
LLMの実利用において重要なRAGの検証と、LambdaMART with Reciprocal Rank Fusionが有効だったという報告
データ構築部分に「This methodology provided a comprehensive and realistic dataset, essential for the evaluation of our context tuning approach in RAG-based planning systems.」とあるが、この設定がrealisticかは見解が分かれそうに思う…（結果は興味深いけど）

Progressive Rectification Prompting

Get an A in Math: Progressive Rectification Prompting [42.1]
CoT(Chain-of-Thought)プロンプト法により,大規模言語モデル(LLM)が推論経路を生成し,算術語問題(MWP)を解くことが可能になった。 77.3から90.5までの8MWPデータセットの平均精度を向上させるために,PRP (Progressive Rectification Prompting) という新しい手法を提案する。
論文参考訳（メタデータ） (Mon, 11 Dec 2023 22:25:57 GMT)
検証修正を繰り返すタイプのプロンプティング手法 Progressive Rectification Prompting (PRP)によってCoTからの性能向上を報告。
self-consistency, progressive-hint, progressive rectificationと工夫がされて行っていて面白いが、ここまで性能上がるものなんだろうか。（＆日本語でも効果があるんだろうか）

CyberSecEval

Purple Llama CyberSecEval: A Secure Coding Benchmark for Language Models [41.1]
本稿では,Large Language Models (LLMs) のプログラミングアシスタントとしてのサイバーセキュリティを促進するために開発された,包括的なベンチマークであるCyberSecEvalを提案する。 CyberSecEvalは、2つの重要なセキュリティ領域におけるLSMの徹底的な評価を提供する。
論文参考訳（メタデータ） (Thu, 7 Dec 2023 22:07:54 GMT)
セキュリティ関連のベンチマークとして「安全でないコードの生成」「サイバー攻撃の支援に対するコンプライアンス」を評価するもの。Purple Llama CyberSecEval: A benchmark for evaluating the cybersecurity risks of large language models | Research – AI at Metaの立ち上げに伴うもの。
「On average, LLMs suggested vulnerable code 30% of the time over CYBERSECEVAL ’s test cases. Furthermore, models complied with 53% of requests to assist in cyberattacks on average across all models and threat categories.」とのことで道はながそう。GPT-4であれば大丈夫という結果でもない。
リポジトリはPurpleLlama/CybersecurityBenchmarks at main · facebookresearch/PurpleLlama · GitHub

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28