arXiv最新論文の紹介

Do Large Language Models Know What They Don’t Know?

Do Large Language Models Know What They Don’t Know? [74.7]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。本研究の目的は,LLMの自己理解能力を評価することである。
論文参考訳（メタデータ） (Mon, 29 May 2023 15:30:13 GMT)
“knowing what you don’t know,”をmodel self-knowledgeと呼び、それを評価した論文。ざっくりとは知らないことを知らないと言えるかどうかを評価している。
GPT-4など強力なモデルはある程度この能力を持っていそうだが、人間には遠く及んでいないよう。
リポジトリはGitHub – yinzhangyue/SelfAware: Large Language Models are more Self-Aware

TheoremQA

TheoremQA: A Theorem-driven Question Answering dataset [57.4]
GPT-4のこれらの問題を解決する能力は非並列であり、Program-of-Thoughts Promptingの精度は51%である。 TheoremQAは、350の定理をカバーする800の高品質な質問を含むドメインの専門家によってキュレートされる。
論文参考訳（メタデータ） (Tue, 23 May 2023 22:35:20 GMT)
定理駆動型質問応答データセットの提案、GSM8K のような数学的問題を解くより難しいとのこと。
GPT-4、GPT-3.5に加えCaludやOSSなLLMが比較対象になっている点が面白い。GPT-4の性能はやはり高い。
リポジトリはGitHub – wenhuchen/TheoremQA: The dataset and code for paper: TheoremQA: A Theorem-driven Question Answering dataset

EmbodiedGPT

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [62.4]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文参考訳（メタデータ） (Wed, 24 May 2023 11:04:30 GMT)
LLMを使ったplan generation、EgoCOTという embodied planning datasetに関する論文。
リポジトリはEmbodiedGPT

LATM: LLMs As Tool Makers

Large Language Models as Tool Makers [53.8]
我々は,LLMが独自の再利用可能なツールを作成する,LLMs As Tool Makers (LATM) と呼ばれるクローズドループフレームワークを提案する。 1) ツール作成: LLMは与えられたタスクのためのツールを作成するツールメーカーとして機能し、そこでツールはPythonユーティリティ関数として実装されます。我々は,Big-Benchタスクを含む様々な複雑な推論タスクに対するアプローチの有効性を検証する。
論文参考訳（メタデータ） (Fri, 26 May 2023 17:50:11 GMT)
GPT-4でツールを作りGPT-3.5-turboが利用するアプローチでGPT-3.5-turbo単体のCoTを大きく超えた性能を発揮し、かつコストも抑えられる、GPT-4を常に使用する場合に比べてコストパフォーマンスが高いというのが興味深い。
リポジトリはGitHub – ctlllll/LLM-ToolMaker

MultiTool-CoT

MultiTool-CoT: GPT-3 Can Use Multiple External Tools with Chain of Thought Prompting [23.6]
推論過程において,計算機や知識検索などの外部ツールを組み込んだMultiTool-CoTを提案する。 NumGLUEのタスク2データセットにMultiTool-CoTを適用し,数値推論とドメイン固有知識の両方を必要とする。
論文参考訳（メタデータ） (Fri, 26 May 2023 13:00:58 GMT)
Toolを組み込んだCoT、NumGLUEで効果を確認とのこと。

PaLI-X

PaLI-X: On Scaling up a Multilingual Vision and Language Model [167.0]
マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
論文参考訳（メタデータ） (Mon, 29 May 2023 18:58:38 GMT)
PaLI: Pathways Language and Image – arXiv最新論文の紹介 (devneko.jp)の新バージョン（？）、Vision-Languageなタスクで優れた性能を達成
モデルアーキテクチャはViT 22B + UL2 32B？

BigTrans

BigTrans: Augmenting Large Language Models with Multilingual Translation Capability over 100 Languages [58.9]
我々は,LLaMAを20言語のみに適応させ,100言語以上の多言語翻訳機能で拡張するBigTransを提案する。 BigTransは,LLaMA-13B上に構築されており,3つのステップで最適化されている。まず,大規模な中国語モノリンガルデータを用いてLLaMAのトレーニングを継続する。次に,102の自然言語をカバーする大規模並列データセットを用いてモデルをトレーニングする。第3に,基礎モデルを多言語翻訳命令で指導し,BigTransモデルに導出する。
論文参考訳（メタデータ） (Mon, 29 May 2023 14:07:52 GMT)
LLaMAを多言語対応させる手法の提案、最初に中国語に対応させ、その後多言語に展開する方針で日本語でもやってみたい内容
リポジトリはGitHub – ZNLP/BigTrans: BigTrans: Augmenting Large Language Models with Multilingual Translation Capability over 100 Languages

BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting

BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.2]
BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。
論文参考訳（メタデータ） (Thu, 25 May 2023 10:50:40 GMT)
BLOOMに新たな言語を入れる場合に有効な方法に関する報告。日本語を入れたいのでとても有用な情報。
「Surprisingly, we find that adapter-based finetuning is more effective than continued pretraining for large models.」という面白い結果が報告されている。「we need around 100 million tokens of the new language for effective language adaptation.」というのも面白い。wikipediaレベルで十分というのは本当なんだろうか。
リポジトリはGitHub – bigscience-workshop/multilingual-modeling: Adapting BLOOM model to support a new unseen language

Multi-lingual and Multi-cultural Figurative Language Understanding

Multi-lingual and Multi-cultural Figurative Language Understanding [69.5]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。 Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文参考訳（メタデータ） (Thu, 25 May 2023 15:30:31 GMT)
多言語（多文化）な比喩表現（figurative language）のデータセット。
面白いデータではあるが、日本語部分に違和感がある例があるような気もしなくはない…時間があれば修正提案をしてみようかと思う
GitHub – simran-khanuja/Multilingual-Fig-QA: Creating the multilingual version of Fig-QA

XTREME-UP

XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages [105.5]
データ不足は、多言語NLPシステムの開発において重要な問題である。我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。 XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文参考訳（メタデータ） (Wed, 24 May 2023 06:09:28 GMT)
非常に多言語のNLPベンチマーク。対象タスクもASR、OCR、AutoComplete、Transliteration、Machine Translation、QA、Ritrieval for QA、NER、Semantic Parsingと多様。
リポジトリはGitHub – google-research/xtreme-up

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31