staka – ページ 148 – arXiv最新論文の紹介

MultiTool-CoT

MultiTool-CoT: GPT-3 Can Use Multiple External Tools with Chain of Thought Prompting [23.6]
推論過程において,計算機や知識検索などの外部ツールを組み込んだMultiTool-CoTを提案する。 NumGLUEのタスク2データセットにMultiTool-CoTを適用し,数値推論とドメイン固有知識の両方を必要とする。
論文参考訳（メタデータ） (Fri, 26 May 2023 13:00:58 GMT)
Toolを組み込んだCoT、NumGLUEで効果を確認とのこと。

PaLI-X

PaLI-X: On Scaling up a Multilingual Vision and Language Model [167.0]
マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
論文参考訳（メタデータ） (Mon, 29 May 2023 18:58:38 GMT)
PaLI: Pathways Language and Image – arXiv最新論文の紹介 (devneko.jp)の新バージョン（？）、Vision-Languageなタスクで優れた性能を達成
モデルアーキテクチャはViT 22B + UL2 32B？

BigTrans

BigTrans: Augmenting Large Language Models with Multilingual Translation Capability over 100 Languages [58.9]
我々は,LLaMAを20言語のみに適応させ,100言語以上の多言語翻訳機能で拡張するBigTransを提案する。 BigTransは,LLaMA-13B上に構築されており,3つのステップで最適化されている。まず,大規模な中国語モノリンガルデータを用いてLLaMAのトレーニングを継続する。次に,102の自然言語をカバーする大規模並列データセットを用いてモデルをトレーニングする。第3に,基礎モデルを多言語翻訳命令で指導し,BigTransモデルに導出する。
論文参考訳（メタデータ） (Mon, 29 May 2023 14:07:52 GMT)
LLaMAを多言語対応させる手法の提案、最初に中国語に対応させ、その後多言語に展開する方針で日本語でもやってみたい内容
リポジトリはGitHub – ZNLP/BigTrans: BigTrans: Augmenting Large Language Models with Multilingual Translation Capability over 100 Languages

BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting

BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.2]
BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。
論文参考訳（メタデータ） (Thu, 25 May 2023 10:50:40 GMT)
BLOOMに新たな言語を入れる場合に有効な方法に関する報告。日本語を入れたいのでとても有用な情報。
「Surprisingly, we find that adapter-based finetuning is more effective than continued pretraining for large models.」という面白い結果が報告されている。「we need around 100 million tokens of the new language for effective language adaptation.」というのも面白い。wikipediaレベルで十分というのは本当なんだろうか。
リポジトリはGitHub – bigscience-workshop/multilingual-modeling: Adapting BLOOM model to support a new unseen language

Multi-lingual and Multi-cultural Figurative Language Understanding

Multi-lingual and Multi-cultural Figurative Language Understanding [69.5]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。 Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文参考訳（メタデータ） (Thu, 25 May 2023 15:30:31 GMT)
多言語（多文化）な比喩表現（figurative language）のデータセット。
面白いデータではあるが、日本語部分に違和感がある例があるような気もしなくはない…時間があれば修正提案をしてみようかと思う
GitHub – simran-khanuja/Multilingual-Fig-QA: Creating the multilingual version of Fig-QA

XTREME-UP

XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages [105.5]
データ不足は、多言語NLPシステムの開発において重要な問題である。我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。 XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文参考訳（メタデータ） (Wed, 24 May 2023 06:09:28 GMT)
非常に多言語のNLPベンチマーク。対象タスクもASR、OCR、AutoComplete、Transliteration、Machine Translation、QA、Ritrieval for QA、NER、Semantic Parsingと多様。
リポジトリはGitHub – google-research/xtreme-up

LLMScore

LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation [72.3]
既存のテキスト対画像合成の自動評価は、画像とテキストのマッチングスコアしか提供できない。マルチグラニュラリティ合成による評価スコアを提供する新しいフレームワークであるLLMScoreを提案する。
論文参考訳（メタデータ） (Thu, 18 May 2023 16:57:57 GMT)
LLMを用いた画像生成の評価指標の提案、優れた結果だが「GPT-4 based LLMScore (Error Counting) is only comparable with GPT-3.5」というのが不思議
リポジトリはGitHub – YujieLu10/LLMScore: LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation

Scaling Data-Constrained Language Models

Scaling Data-Constrained Language Models [151.9]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文参考訳（メタデータ） (Thu, 25 May 2023 17:18:55 GMT)
データ制約がある場合のスケーリングに関する検討、実験を通した実証的な論文
リポジトリはGitHub – huggingface/datablations: Scaling Data-Constrained Language Models

LIMA: Less Is More for Alignment

LIMA: Less Is More for Alignment [112.9]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。 LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文参考訳（メタデータ） (Thu, 18 May 2023 17:45:22 GMT)
強力なベースモデルとよくキュレーションされた1000個の例があれば複雑なクエリを扱えるChatGPTのような動きが可能という報告。
「Taken together, these results strongly suggest that almost all knowledge in large language models is learned during pretraining, and only limited instruction tuning data is necessary to teach models to produce high quality output.」ということで事前学習モデルの重要性は他の報告と整合的。

CoFe:

How Do In-Context Examples Affect Compositional Generalization? [86.6]
本稿では,コンテクスト内構成一般化を検証するためのテストスイートであるCoFeを提案する。構成一般化性能は、文脈内例の選択によって容易に影響を受けることが判明した。我々の系統実験は、文脈内サンプルは、テストケースと構造的に似ており、互いに異なっており、個別に単純であることを示します。
論文参考訳（メタデータ） (Thu, 25 May 2023 02:34:40 GMT)
in context learningのテストスイートの提案、詳細な分析がなされており非常に参考になる。「Our systematic experiments indicate that in-context examples should be structurally similar to the test case, diverse from each other, and individually simple.」とあるのは直感的にもそうだとは思うが、それぞれの要素について検証がなされているのが凄い。
リポジトリはContextualSP/cofe at master · microsoft/ContextualSP · GitHub

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31