2023年6月 – ページ 4 – arXiv最新論文の紹介

DIONYSUS: dynamic input optimization in pre-training for dialogue summarization

DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization [127.7]
DIONYSUSは、任意の新しいドメインでの対話を要約するための訓練済みエンコーダデコーダモデルである。実験の結果,DIONYSUSは6つのデータセット上で既存の手法よりも優れていた。
論文参考訳（メタデータ） (Fri, 26 May 2023 17:29:01 GMT)
対話要約モデルをヘルパーとして用い任意のドメインを要約できる手法の提案。事前学習に疑似要約を使うかGap Sentence Generation Plusで得られた文を使うかを選択している点が特徴的。DIONYSUS can be fine-tuned with only 10 examples to outperform vanilla T5 fine-tuning with 1,000 examples.とのこと。ヘルパー自体がかなり強力である必要があるような気もする。

Leveraging Large Language Models for Topic Classification in the Domain of Public Affairs

Leveraging Large Language Models for Topic Classification in the Domain of Public Affairs [65.9]
大規模言語モデル (LLM) は公務員文書の分析を大幅に強化する可能性を秘めている。 LLMは、公共の分野など、ドメイン固有のドキュメントを処理するのに非常に役立ちます。
論文参考訳（メタデータ） (Mon, 5 Jun 2023 13:35:01 GMT)
公共の文書を分類するためにLLMを使うという報告。なのだが使われているのがRoBERTa系なので、これをLLMといってよいのかは謎。PromptやICLを使う戦略でもなくPLMを使ったという表現の方がしっくりくる。
結論としてSVMの併用が有効としているのは実用的にはそうだよねーと思う

InstructZero

InstructZero: Efficient Instruction Optimization for Black-Box Large Language Models [117.9]
大規模言語モデル(LLM)は命令従者であるが、異なる状況に最適な命令を見つけることは困難である。我々は,オープンソースLLMに適用した低次元ソフトプロンプトを最適化し,ブラックボックスLLMの命令を生成する。 InstructZero は,様々な下流タスクにおいて SOTA 自動命令手法より優れていることを示す。
論文参考訳（メタデータ） (Mon, 5 Jun 2023 17:55:22 GMT)
プロンプトを自動で改善する取り組み、ブラックボックスなLLM（GPT-4など）に対して直接プロンプトを最適化するのではなく、オープンソースなLLMを併用する事が特徴的。Fugu-MT 論文翻訳(概要): Large Language Models Are Human-Level Prompt Engineers (fugumt.com)を上回る結果
リポジトリはGitHub – Lichang-Chen/InstructZero: Official Implementation of InstructZero; the first framework to optimize bad prompts of ChatGPT(API LLMs) and finally obtain good prompts!

RASO

Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge [155.8]
Open-ended Visual Question Answering (VQA)タスクでは、視覚と自然言語の入力をAIモデルが共同で推論する必要がある。 GPT-3のような事前訓練された言語モデル(PLM)がこのタスクに適用され、強力な世界知識源であることが示されている。我々は,世界的知識によって導かれるジェネレータ選択戦略をデプロイする新しいVQAパイプラインであるRASOを提案する。
論文参考訳（メタデータ） (Tue, 30 May 2023 08:34:13 GMT)
画像からImageCaptionning＋PLMでありえそうなQAを大量に作ったうえで回答選択モデルによって回答するアプローチの提案。OK-VQAでSoTAを主張。PLMの知識を引き出せているとの見解。
コードとモデルはGenerate then Select: Open-ended Visual Question Answering Guided by World Knowledge – Publications – Cognitive Computation Group (upenn.edu)でリリース予定とのこと

What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization

What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization [111.3]
本稿では,インテクスト学習(ICL)の総合的研究を行う。 (a)言語モデルで学習されるICL推定器の種類は? b) ICLを正確に評価するのに適切なパフォーマンス指標と、エラー率について。 (c) トランスフォーマーアーキテクチャはどのようにICLを実現するのか? 答えは a) iclはベイズモデル平均化アルゴリズムを暗黙的に実装していることを示す。このベイズモデル平均化アルゴリズムは注意機構によっておよそパラメータ化される。 b) ICLのパフォーマンスをオンライン学習の観点から分析し, ICLの入力シーケンス長が$T$である場合に, regret O(1/T)を確立する。 (c) 注意される符号化ベイズモデル平均化アルゴリズムに加えて, 学習モデルと名目モデルとの間の総変動距離は, 近似誤差(1/\sqrt{n_{\mathrm{p}}t_{\mathrm{p}}})$, ここで $n_{\mathrm{p}}$ と $t_{\mathrm{p}}$ はそれぞれトークン列の数とプリトレーニング中の各シーケンスの長さで区切られている。
論文参考訳（メタデータ） (Tue, 30 May 2023 21:23:47 GMT)
ICLの分析、本当なのかはちょっと疑問ではあるので証明を追ってみたいところ。

On the Copying Problem of Unsupervised NMT: A Training Schedule with a Language Discriminator Loss

On the Copying Problem of Unsupervised NMT: A Training Schedule with a Language Discriminator Loss [120.2]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文参考訳（メタデータ） (Fri, 26 May 2023 18:14:23 GMT)
unsupervised neural machine translationをトライしているとあるあるな問題、コピーが出力されることに対する考察と対策の提案。
リポジトリはGitHub – yihongL1U/xlm_lang_dis

Do Large Language Models Know What They Don’t Know?

Do Large Language Models Know What They Don’t Know? [74.7]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。本研究の目的は,LLMの自己理解能力を評価することである。
論文参考訳（メタデータ） (Mon, 29 May 2023 15:30:13 GMT)
“knowing what you don’t know,”をmodel self-knowledgeと呼び、それを評価した論文。ざっくりとは知らないことを知らないと言えるかどうかを評価している。
GPT-4など強力なモデルはある程度この能力を持っていそうだが、人間には遠く及んでいないよう。
リポジトリはGitHub – yinzhangyue/SelfAware: Large Language Models are more Self-Aware

TheoremQA

TheoremQA: A Theorem-driven Question Answering dataset [57.4]
GPT-4のこれらの問題を解決する能力は非並列であり、Program-of-Thoughts Promptingの精度は51%である。 TheoremQAは、350の定理をカバーする800の高品質な質問を含むドメインの専門家によってキュレートされる。
論文参考訳（メタデータ） (Tue, 23 May 2023 22:35:20 GMT)
定理駆動型質問応答データセットの提案、GSM8K のような数学的問題を解くより難しいとのこと。
GPT-4、GPT-3.5に加えCaludやOSSなLLMが比較対象になっている点が面白い。GPT-4の性能はやはり高い。
リポジトリはGitHub – wenhuchen/TheoremQA: The dataset and code for paper: TheoremQA: A Theorem-driven Question Answering dataset

EmbodiedGPT

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [62.4]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文参考訳（メタデータ） (Wed, 24 May 2023 11:04:30 GMT)
LLMを使ったplan generation、EgoCOTという embodied planning datasetに関する論文。
リポジトリはEmbodiedGPT

LATM: LLMs As Tool Makers

Large Language Models as Tool Makers [53.8]
我々は,LLMが独自の再利用可能なツールを作成する,LLMs As Tool Makers (LATM) と呼ばれるクローズドループフレームワークを提案する。 1) ツール作成: LLMは与えられたタスクのためのツールを作成するツールメーカーとして機能し、そこでツールはPythonユーティリティ関数として実装されます。我々は,Big-Benchタスクを含む様々な複雑な推論タスクに対するアプローチの有効性を検証する。
論文参考訳（メタデータ） (Fri, 26 May 2023 17:50:11 GMT)
GPT-4でツールを作りGPT-3.5-turboが利用するアプローチでGPT-3.5-turbo単体のCoTを大きく超えた性能を発揮し、かつコストも抑えられる、GPT-4を常に使用する場合に比べてコストパフォーマンスが高いというのが興味深い。
リポジトリはGitHub – ctlllll/LLM-ToolMaker

2023年6月
月	火	水	木	金	土	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30