arXiv最新論文の紹介

M3Exam

M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models [30.4]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。 M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文参考訳（メタデータ） (Thu, 8 Jun 2023 13:21:29 GMT)
マルチリンガル、マルチモーダルなLLM評価用のベンチマーク。残念ながら日本語は入っていない。このベンチマークではGPT-4 > ChatGPT > Calude > Vicuna > BLOOMとのこと。前提条件などにもよるのだろうが参考になる。
リポジトリはGitHub – DAMO-NLP-SG/M3Exam: Data and code for paper “M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models”

Clinical Note Generation from Doctor-Patient Conversations using Large Language Models

WangLab at MEDIQA-Chat 2023: Clinical Note Generation from Doctor-Patient Conversations using Large Language Models [2.4]
我々はMEDIQA-Chat 2023の共有タスクを医師と患者との会話から自動的な臨床ノート作成のために提出した。本稿では,共有タスクデータに事前学習言語モデル(PLM)を1つ,大言語モデル(LLM)を2つ導入し,その2つについて報告する。専門家の人間の精査は、ICLベースのGPT-4によるアプローチによって生成されたメモが、人間によるメモと同じくらい頻繁に好まれていることを示している。
論文参考訳（メタデータ） (Sat, 3 Jun 2023 17:56:29 GMT)
患者との対話記録からの臨床ノート作成、コンペティションで行われたもののよう。GPT-4 + ICLがPLM + finetuneに勝っている点、GPT-4 + ICLが人が書いたGrund Truthと互角レベルで人に好まれる点など面白い結果となっている。
リポジトリはGitHub – bowang-lab/MEDIQA-Chat-2023: A repository for organizing our submission to the MEDIQA-Chat Tasks @ ACL-ClinicalNLP 2023

An Empirical Study on Challenging Math Problem Solving with GPT-4

An Empirical Study on Challenging Math Problem Solving with GPT-4 [35.5]
この研究は、より複雑で挑戦的な数学問題の解決にGPT-4を使うことのフロンティアを探求する。本研究で新たに提案された会話型問題解決フレームワークであるMathChatを提案する。我々は,MATHデータセットを用いて,難易度の高い高校競争問題の評価を行う。
論文参考訳（メタデータ） (Thu, 8 Jun 2023 02:34:35 GMT)
ユーザプロキシーエージェントと会話しながら数学的な問題を解くフレームワークの提案。Program of ThoughtsやProgram Synthesis promptingを超える性能とのこと。
リポジトリはFLAML/flaml/autogen/math at gpt_math_solver · kevin666aa/FLAML · GitHub

Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning [75.7]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。ツールインターフェース,すなわち DELI を用いた推論ステップを考慮に入れた新しい手法を提案する。 CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (Sun, 4 Jun 2023 17:02:59 GMT)
こちらも数学的な問題を解くためのフレームワーク提案（データセットの提案も）
リポジトリはGitHub – RUCAIBox/CARP

Deep Weakly-supervised Anomaly Detection

Deep Weakly-supervised Anomaly Detection [118.6]
ペアワイズ関係予測ネットワーク(PReNet)は、ペアワイズ関係の特徴と異常スコアを学習する。 PReNetは、学習したペアの異常パターンに適合する見知らぬ異常を検出できる。 12の実世界のデータセットに対する実証的な結果から、PReNetは目に見えない異常や異常を検知する9つの競合する手法を著しく上回っている。
論文参考訳（メタデータ） (Mon, 5 Jun 2023 15:05:13 GMT)
弱教師有りの異常検知、幅広いデータセットでSoTAを主張、GitHub – GuansongPang/deviation-network: Source code of the KDD19 paper “Deep anomaly detection with deviation networks”, weakly/partially supervised anomaly detection, few-shot anomaly detection, semi-supervised anomaly detectionより優れているとのこと。
リポジトリはGitHub – mala-lab/PReNet: Official implementation of KDD’23 paper “Deep Weakly-supervised Anomaly Detection”

DIONYSUS: dynamic input optimization in pre-training for dialogue summarization

DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization [127.7]
DIONYSUSは、任意の新しいドメインでの対話を要約するための訓練済みエンコーダデコーダモデルである。実験の結果,DIONYSUSは6つのデータセット上で既存の手法よりも優れていた。
論文参考訳（メタデータ） (Fri, 26 May 2023 17:29:01 GMT)
対話要約モデルをヘルパーとして用い任意のドメインを要約できる手法の提案。事前学習に疑似要約を使うかGap Sentence Generation Plusで得られた文を使うかを選択している点が特徴的。DIONYSUS can be fine-tuned with only 10 examples to outperform vanilla T5 fine-tuning with 1,000 examples.とのこと。ヘルパー自体がかなり強力である必要があるような気もする。

Leveraging Large Language Models for Topic Classification in the Domain of Public Affairs

Leveraging Large Language Models for Topic Classification in the Domain of Public Affairs [65.9]
大規模言語モデル (LLM) は公務員文書の分析を大幅に強化する可能性を秘めている。 LLMは、公共の分野など、ドメイン固有のドキュメントを処理するのに非常に役立ちます。
論文参考訳（メタデータ） (Mon, 5 Jun 2023 13:35:01 GMT)
公共の文書を分類するためにLLMを使うという報告。なのだが使われているのがRoBERTa系なので、これをLLMといってよいのかは謎。PromptやICLを使う戦略でもなくPLMを使ったという表現の方がしっくりくる。
結論としてSVMの併用が有効としているのは実用的にはそうだよねーと思う

InstructZero

InstructZero: Efficient Instruction Optimization for Black-Box Large Language Models [117.9]
大規模言語モデル(LLM)は命令従者であるが、異なる状況に最適な命令を見つけることは困難である。我々は,オープンソースLLMに適用した低次元ソフトプロンプトを最適化し,ブラックボックスLLMの命令を生成する。 InstructZero は,様々な下流タスクにおいて SOTA 自動命令手法より優れていることを示す。
論文参考訳（メタデータ） (Mon, 5 Jun 2023 17:55:22 GMT)
プロンプトを自動で改善する取り組み、ブラックボックスなLLM（GPT-4など）に対して直接プロンプトを最適化するのではなく、オープンソースなLLMを併用する事が特徴的。Fugu-MT 論文翻訳(概要): Large Language Models Are Human-Level Prompt Engineers (fugumt.com)を上回る結果
リポジトリはGitHub – Lichang-Chen/InstructZero: Official Implementation of InstructZero; the first framework to optimize bad prompts of ChatGPT(API LLMs) and finally obtain good prompts!

RASO

Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge [155.8]
Open-ended Visual Question Answering (VQA)タスクでは、視覚と自然言語の入力をAIモデルが共同で推論する必要がある。 GPT-3のような事前訓練された言語モデル(PLM)がこのタスクに適用され、強力な世界知識源であることが示されている。我々は,世界的知識によって導かれるジェネレータ選択戦略をデプロイする新しいVQAパイプラインであるRASOを提案する。
論文参考訳（メタデータ） (Tue, 30 May 2023 08:34:13 GMT)
画像からImageCaptionning＋PLMでありえそうなQAを大量に作ったうえで回答選択モデルによって回答するアプローチの提案。OK-VQAでSoTAを主張。PLMの知識を引き出せているとの見解。
コードとモデルはGenerate then Select: Open-ended Visual Question Answering Guided by World Knowledge – Publications – Cognitive Computation Group (upenn.edu)でリリース予定とのこと

What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization

What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization [111.3]
本稿では,インテクスト学習(ICL)の総合的研究を行う。 (a)言語モデルで学習されるICL推定器の種類は? b) ICLを正確に評価するのに適切なパフォーマンス指標と、エラー率について。 (c) トランスフォーマーアーキテクチャはどのようにICLを実現するのか? 答えは a) iclはベイズモデル平均化アルゴリズムを暗黙的に実装していることを示す。このベイズモデル平均化アルゴリズムは注意機構によっておよそパラメータ化される。 b) ICLのパフォーマンスをオンライン学習の観点から分析し, ICLの入力シーケンス長が$T$である場合に, regret O(1/T)を確立する。 (c) 注意される符号化ベイズモデル平均化アルゴリズムに加えて, 学習モデルと名目モデルとの間の総変動距離は, 近似誤差(1/\sqrt{n_{\mathrm{p}}t_{\mathrm{p}}})$, ここで $n_{\mathrm{p}}$ と $t_{\mathrm{p}}$ はそれぞれトークン列の数とプリトレーニング中の各シーケンスの長さで区切られている。
論文参考訳（メタデータ） (Tue, 30 May 2023 21:23:47 GMT)
ICLの分析、本当なのかはちょっと疑問ではあるので証明を追ってみたいところ。

On the Copying Problem of Unsupervised NMT: A Training Schedule with a Language Discriminator Loss

On the Copying Problem of Unsupervised NMT: A Training Schedule with a Language Discriminator Loss [120.2]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文参考訳（メタデータ） (Fri, 26 May 2023 18:14:23 GMT)
unsupervised neural machine translationをトライしているとあるあるな問題、コピーが出力されることに対する考察と対策の提案。
リポジトリはGitHub – yihongL1U/xlm_lang_dis

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31