arXiv最新論文の紹介

週刊ChatGPT

今週もChatGPT関連の論文は多い。API利用が可能になったこともあり、検証関連は今後も増えそうな感じ。

Cross-Lingual Summarization via ChatGPT [46.0]
言語間要約(CLS)は、異なるターゲット言語で要約を生成することを目的としている。 ChatGPTの最近の出現は、計算コミュニティから広く注目を集めている。本稿では,ChatGPTを誘導する様々なプロンプトを用いて,異なるパラダイムからゼロショットCLSを実行する。
論文参考訳（メタデータ） (Tue, 28 Feb 2023 01:27:37 GMT)
クロスリンガルなゼロショット要約への応用。ChatGPTはtext-davinci-003よりも優れている一方で、ROUGE、BERTScoreともにFine-tunedなmBARTモデルに及ばずという結果。ただし、「For example, as discussed by Goyal et al (2022), the news summaries generated by GPT-3 achieve lower ROUGE scores than ﬁne-tuned methods but higher human evaluation scores.」との注釈がある。

Comparing Sentence-Level Suggestions to Message-Level Suggestions in AI-Mediated Communication [2.9]
本研究では,AIを用いたコミュニケーションにおける文レベルの提案とメッセージレベルの提案とのトレードオフについて検討する。我々は120人の参加者を募集し、議員のオフィスからスタッフとして働きました。
論文参考訳（メタデータ） (Sun, 26 Feb 2023 18:40:38 GMT)
文レベルのサジェスチョンとメッセージレベルのサジェスチョンのどちらが有効か（およびユーザから見てどのような違いがあるのか）を検証した論文。当たり前かもしれないがメッセージレベルでのサジェスチョンの方がタスク完了の早期化には有効、かつユーザも満足していたとのこと。
使用した生成モデルは GPT-3 (text-davinci002 modelでfine-tuningなし)

Large Language Models Are State-of-the-Art Evaluators of Translation Quality [7.8]
翻訳品質評価法は, GPT 3.5 以上のモデルでのみ有効であることを示す。 WMT22 Metrics共有タスク言語ペアのシステムレベルでは,この結果が有効である。
論文参考訳（メタデータ） (Tue, 28 Feb 2023 12:23:48 GMT)
LLMを用いた翻訳品質の評価方法GEMBA（GPT Estimation Metric Based Assessment）の提案。BLEUやCOMETより優れているとのこと。
プロンプトを工夫して評価させるアプローチでこれで真っ当な評価が返ってくるのはかなり意外
リポジトリはGitHub – MicrosoftTranslator/GEMBA: GEMBA — GPT Estimation Metric Based Assessment

ChatAug: Leveraging ChatGPT for Text Data Augmentation [56.0]
本稿では,ChatGPT(ChatAug)に基づくテキストデータ拡張手法を提案する。 ChatGPTは、非並列な言語的豊かさを持つデータに基づいて訓練され、大規模な人間のフィードバックによる強化トレーニングプロセスを採用している。我々のテキストデータ拡張アプローチであるChatAugは、トレーニングサンプルの各文を、概念的に類似しているが意味的に異なる複数のサンプルに書き換える。
論文参考訳（メタデータ） (Sat, 25 Feb 2023 06:58:16 GMT)
ChatGPTを用いたデータ拡張の提案。画像生成モデルでもトライされており、言語モデル内の知識を活用するのが有効なことはあると思う。
様々なデータ拡張手法と比較して有用性を検証しているが、LLM+fewshot（or LLM + soft prompt）だとどの程度の性能になるのかは知りたいところ。

Language Is Not All You Need

Language Is Not All You Need: Aligning Perception with Language Models [110.5]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文参考訳（メタデータ） (Wed, 1 Mar 2023 11:04:51 GMT)
言語モデルの限界（テキスト）を超えるマルチモーダルモデルKOSMOS-1の提案。Image CaptioningやVQAで優れた性能（Flamingoと競合）。Web-based Structural Reading Comprehensionでマルチモーダルの恩恵を受けるのは確かに、という感想で実用性もありそう。
KOSMOS-1 is about 1.6Bとのことで昨今の大規模言語モデルに比べると非常に大きいとも言えないサイズ。
論文にはGitHub – microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalitiesが書かれているが現時点では公開踏破されていないよう

AutoMLの実際

AutoML in The Wild: Obstacles, Workarounds, and Expectations [34.7]
本研究は,現実の実践においてユーザが遭遇するAutoMLの限界を理解することに焦点を当てる。その結果,カスタマイズ性,透明性,プライバシーから生じる3つの大きな課題を克服するために,ユーザエージェンシーを積極的に実施していることが判明した。
論文参考訳（メタデータ） (Tue, 21 Feb 2023 17:06:46 GMT)
AutoMLの実践（課題と対策）についてインタビュー（19人）から整理した論文
実践者に対するインタビューはとても参考になるのと「AutoMLの不備については良く知りつつ実用的に対応している」という点がやや驚きだった。使えそうであれば様々な方法で克服していけるのであれば最近の対話系モデルもどうにかして実用していけるのかもと思わなくもない。

信頼できるAIとCausality

A Review of the Role of Causality in Developing Trustworthy AI Systems [16.3]
最先端のAIモデルは、現実世界の人間の理解を支配する因果関係の理解がほとんどない。近年,AIモデルの信頼性を向上するための強力なツールとして因果モデリングや推論手法が登場している。
論文参考訳（メタデータ） (Tue, 14 Feb 2023 11:08:26 GMT)
Trustworthy AIに対する因果推論や因果モデリングの役割を整理したサーベイ
Interpretability、Fairness、Robustness、Privacy、Safety and Accountability(Auditing)に対する因果性の効果が整理されている

機械翻訳におけるScaling Law

Scaling Laws for Multilingual Neural Machine Translation [45.6]
モデルサイズの増加がモデル性能に与える影響について検討し,スケーリング行動におけるトレーニング混合物組成の役割について検討した。学習混合物中の個々の言語ペアの重み付けの変化は,スケーリング法則の乗法的要因にのみ影響することがわかった。我々は、どんな言語重み付けでも訓練された多言語モデルの性能を予測するために、我々の観測を活用している。
論文参考訳（メタデータ） (Sun, 19 Feb 2023 18:43:24 GMT)
マルチリンガルな機械翻訳におけるScaling Lawの検証結果。興味深い結果が多いが近しい言語のマルチリンガル翻訳は効果が大きいという説に対して「(En→{De, Fr})への翻訳を訓練したモデルと、非関連言語(En→{De, Zh})で訓練したモデルのスケーリング挙動に有意な差はみられない。」という結果は面白い。
staka/takomt · Hugging Faceとか個人でやるには結構大変で当面はJA⇔ENに注力しようと思っているがとても面白い論文。

対話システムにおけるSafe, Rensponsible, Moralのサーベイ

Recent Advances towards Safe, Responsible, and Moral Dialogue Systems: A Survey [51.8]
安全・責任・モダル対話システム構築に向けた研究範囲の新たな視点を提示する。本稿では,1)虐待的・有害な内容,2)不公平・差別,3)倫理的・道徳的問題,および4)誤認・プライバシー情報のリスクについて論じる。
論文参考訳（メタデータ） (Sat, 18 Feb 2023 09:32:55 GMT)
最近話題の対話システムに対して社会実装上避けては通れない要素のサーベイ
5章のトレンドも参考になる
- 1) explainable safety monitoring
- 2) continuous learning of safety issues
- 3) robustness against malicious attacks
- 4) multimodal information processing
- 5) unified research framework
- 6) multidisciplinary theory integration

RealFusion: 360

RealFusion: 360{\deg} Reconstruction of Any Object from a Single Image [98.5]
対象物の全360度写真モデルを1枚の画像から再構成する際の問題点を考察する。我々は拡散に基づく自己条件付き画像生成装置を取り、オブジェクトの新たなビューを夢見るように促すプロンプトを設計する。
論文参考訳（メタデータ） (Tue, 21 Feb 2023 13:25:35 GMT)
1枚の画像から360度の写真モデルを再構成、デモが凄い
2次元の学習済みDiffusion Modelを知識源として使っており、パイプライン構成が想像して作る人間っぽいと思ってしまった
リポジトリはRealFusion: 360° Reconstruction of Any Object from a Single Image (lukemelas.github.io)

VoxFormer

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion [129.6]
VoxFormerはTransformerベースのセマンティックシーン補完フレームワークである。 2D画像のみから完全な3Dセマンティクスを出力できる。幾何学では20.0%、意味論では18.1%の相対的な改善で芸術の状態を上回ります。
論文参考訳（メタデータ） (Thu, 23 Feb 2023 18:59:36 GMT)
ボクセルが扱えるTransformer、一枚の画像から３次元形状の予測が可能で見えない部分についても一定の予測ができいるように見える。
リポジトリはGitHub – NVlabs/VoxFormer: A Cutting-edge Baseline for 3D Semantic Occupancy Prediction

Deep Anomaly Detection under Labeling Budget Constraints

Deep Anomaly Detection under Labeling Budget Constraints [37.0]
予算制約の下で最適なデータカバレッジを持つデータラベリング戦略を提案する。また,半教師付き異常検出のための新しい学習フレームワークを提案する。
論文参考訳（メタデータ） (Wed, 15 Feb 2023 18:18:35 GMT)
予算制約がある中での異常検知手法としてSOEL(Semi-supervised outlier exposure with limited labeling budget)を提案

Prompt Injection

More than you’ve asked for: A Comprehensive Analysis of Novel Prompt Injection Threats to Application-Integrated Large Language Models [64.7]
検索とAPI呼び出し機能を備えた大規模言語モデルの拡張は、全く新しい攻撃ベクトルを誘導することを示す。これらのLSMは、敵によって事前に注入され選択された悪意のあるプロンプトを含むWebから検索された有毒なコンテンツを処理する。
論文参考訳（メタデータ） (Thu, 23 Feb 2023 17:14:38 GMT)
プロンプトインジェクションに関する論文、指摘されている通りApplication-Integrated LLMでは大きな脅威になりうる（そして対策も難しい）。この論文では信頼できない外部ソースを取りに行かせるタイプの攻撃をIndirect Prompt Injectionと呼んでおり、Bingの新機能のようにデータを取得しに行くタイプのLLMでは問題になりそう（もちろん、将来ToolformerのようにAPIを呼びに行くようなAIではさらに問題が大きい）
下記のようにうまくプロンプトを作ろうとする方向性もあれば、攻撃できないかという方向性もあり、研究は様々だと思う。（解析的に明らかにしにくい分野でもあり多方面からの研究は非常に重要だとも思う）

Prompting GPT-3 To Be Reliable [117.2]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (Mon, 17 Oct 2022 14:52:39 GMT)
GitHub – NoviScl/GPT3-Reliability

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31