arXiv – ページ 177 – arXiv最新論文の紹介

Generating Adversarial Examples Robust to Round-Trip Translation

Lost In Translation: Generating Adversarial Examples Robust to Round-Trip Translation [66.3]
本研究は, ラウンドトリップ翻訳における現在のテキスト対逆攻撃の堅牢性に関する包括的研究である。筆者らは,現在最先端のテキストベースの6つの敵攻撃が,ラウンドトリップ翻訳後の有効性を維持していないことを実証した。本稿では,機械翻訳を逆例生成のプロセスに組み込むことにより,この問題に対する介入に基づく解決策を提案する。
論文参考訳（メタデータ） (Mon, 24 Jul 2023 04:29:43 GMT)
多くのadversarial attacks 手法が機械翻訳システムを用いたラウンドトリップ翻訳（日→英→日のようにある言語を介して元の言語に戻す翻訳）下で有効性が減じるため、それを乗り越える手法を提案したとの報告。
「We demonstrate that round trip translation can be used as a cheap and effective defence against current textual adversarial attacks.」というのは機械翻訳モデルを作っている側としては面白い話だが、「we find that round-trip translation defensive capabilities can be bypassed by our proposed attack-agnostic algorithm」というのにいたちごっこさ感じる。
リポジトリはGitHub – neelbhandari6/NMT_Text_Attack: This repository is the implementation of the paper ‘Lost In Translation’.

MultiRobustBench

MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.7]
機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。 9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
論文参考訳（メタデータ） (Thu, 20 Jul 2023 01:34:16 GMT)
あまり見ないマルチアタックに対する評価フレームワークの提案。CIFAR-10が対象のよう。
プロジェクトサイトはmultirobustbench.github.io

Med-PaLM Multimodal

Towards Generalist Biomedical AI [28.7]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。 Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文参考訳（メタデータ） (Wed, 26 Jul 2023 17:52:22 GMT)
マルチモーダルな医療用LLMの提案、PaLM-E を医療ドメインにfinetuning して構成。ベンチマーク結果はオリジナルのPaLM-Eより優れており、特化型モデルを超える例もあるとのこと。
パラメータサイズ12B、84B、562Bの比較もあるが、84B < 562Bが成り立たない例も多いのが興味深い。

EmoSet

EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes [54.0]
EmoSetは、リッチ属性でアノテートされた最初の大規模な視覚的感情データセットである。 EmoSetは合計330万枚の画像で構成され、そのうち118,102枚は人間のアノテーションによって慎重にラベル付けされている。 EmoSetにはソーシャルネットワークの画像と芸術的イメージが含まれており、異なる感情カテゴリー間でバランスがとれている。
論文参考訳（メタデータ） (Sun, 16 Jul 2023 06:42:46 GMT)
意外と珍しいVisual Emotion Analysisのデータセット。EmoSet-118Kという人間がアノテーションしたデータセットと機械取得を含む330万枚のデータセットEmoSet-3.3Mからなるとのこと。
コードおよびデータは論文公開後に公開されるらしい

Auto-Tables

Auto-Tables: Synthesizing Multi-Step Transformations to Relationalize Tables without Using Examples [18.8]
Auto-Tablesは、非リレーショナルテーブルを標準リレーショナルフォームに変換して、ダウンストリーム分析を行う。評価の結果,Auto-Tables はテストケースの70%以上をインタラクティブな速度で変換できることがわかった。
論文参考訳（メタデータ） (Thu, 27 Jul 2023 00:55:54 GMT)
非リレーショナルなテーブルをRDBに変換する手法の提案。computer-vision inspired model architecture that exploits the common “visual” patterns in tables.ということでビジュアルを使っている点が興味深い（同様の分析をする際、人でも重要な情報源なのでうまくいきそうという気はする）

WebArena

WebArena: A Realistic Web Environment for Building Autonomous Agents [83.3]
エージェントコマンドと制御のための環境を構築し、非常に現実的で再現性が高い。我々は,Webサイト上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを備えた環境を構築する。タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文参考訳（メタデータ） (Tue, 25 Jul 2023 22:59:32 GMT)
Web上でタスクを実行するエージェント用の検証環境とベンチマークの提案。GPT-4を用いてもsuccess rateは10.59と低い。リアル（そもそも達成不可能なタスクも含まれる）で難しいタスクを扱うベンチマークとして有用そう。
プロジェクトサイトはWebArena: A Realistic Web Environment for Building Autonomous Agents

PanGu-Coder2

PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback [5.5]
本稿では,コード生成のための事前学習された大規模言語モデルを効果的かつ効率的に向上するRRTF(Rank Responses toaligned Test&Teacher Feedback)フレームワークを提案する。このフレームワークでは、OpenAI HumanEvalベンチマークで62.20%パス@1を達成したPanGu-Coder2を紹介します。
論文参考訳（メタデータ） (Thu, 27 Jul 2023 15:28:29 GMT)
大規模言語モデルをコード生成用にチューニングするRRTF (Rank Responses to align Test & Teacher Feedback)の提案、HumanEvalで優れた性能、同規模のWizardCoder以上

FacTool

FacTool: Factuality Detection in Generative AI — A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios [87.1]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文参考訳（メタデータ） (Tue, 25 Jul 2023 14:20:51 GMT)
生成AIが生成したデータに対するFact Checkツールの提案。knowledge-based QA, code generation, mathematical reasoning, scientific literature reviewで有効性を確認とのこと。
LLMを用いてクレーム検出→クエリ作成（検索エンジン等の利用）→クエリー＆エビデンス収集→検証する流れで人が行う検証と同じ手順。FACTOOL powered by GPT-4は性能が高くself check系のベースラインを大きく上回っている。
（今までであればそれぞれのステップ1つ1つが簡単ではないタスクとして扱われていたはずだが、LLMの登場で1モデルで実施可能になっている点も感慨深い。）
リポジトリはGitHub – GAIR-NLP/factool: FacTool: Factuality Detection in Generative AI

Disco-Bench

Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [55.7]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (Sun, 16 Jul 2023 15:18:25 GMT)
9つのタスクからなる英語・中国語の談話ベンチマーク。タスクはSI (Speaker Identification)、ZPR (Zero Pronoun Recovery)、MRC (Machine Reading Comprehension)、NT (Novel Translation)、CCT (Classical Chinese Translation)、PT (Poetry Translation)、TE (Text Expansion)、TI (Text Infilling)、TC (Text Completion)。TEは「 TE is to insert appropriate words, phrases, or clauses for adding more details and deepening the meaning, while retaining coherence and cohesiveness.」とのこと。
リポジトリはhttps://github.com/longyuewangdcu/Disco-Benchとのことだが、現時点では404

The Potential and Pitfalls of using a Large Language Model such as ChatGPT or GPT-4 as a Clinical Assistant

The Potential and Pitfalls of using a Large Language Model such as ChatGPT or GPT-4 as a Clinical Assistant [12.0]
ChatGPTとGPT-4はいくつかの医療領域で有望な性能を示した。われわれはChatGPTとGPT-4を用いて2つの分析を行った。患者の評価では、GPT-4は4回に3回、正確に診断できる。しかし、重大な医学的所見を見落とし、不必要な調査や過剰な治療の勧告など、事実的に誤記の言及があった。これらの問題とプライバシーの懸念が組み合わさって、これらのモデルが現実の臨床試験に不適切になっている。
論文参考訳（メタデータ） (Sun, 16 Jul 2023 21:19:47 GMT)
医療分野におけるGPT-4活用可能性の検討、（今までも色々指摘されている通り）誤記の問題は大きいよう。

2025年12月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31