arXiv最新論文の紹介

Language Is Not All You Need

Language Is Not All You Need: Aligning Perception with Language Models [110.5]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文参考訳（メタデータ） (Wed, 1 Mar 2023 11:04:51 GMT)
言語モデルの限界（テキスト）を超えるマルチモーダルモデルKOSMOS-1の提案。Image CaptioningやVQAで優れた性能（Flamingoと競合）。Web-based Structural Reading Comprehensionでマルチモーダルの恩恵を受けるのは確かに、という感想で実用性もありそう。
KOSMOS-1 is about 1.6Bとのことで昨今の大規模言語モデルに比べると非常に大きいとも言えないサイズ。
論文にはGitHub – microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalitiesが書かれているが現時点では公開踏破されていないよう

AutoMLの実際

AutoML in The Wild: Obstacles, Workarounds, and Expectations [34.7]
本研究は,現実の実践においてユーザが遭遇するAutoMLの限界を理解することに焦点を当てる。その結果,カスタマイズ性,透明性,プライバシーから生じる3つの大きな課題を克服するために,ユーザエージェンシーを積極的に実施していることが判明した。
論文参考訳（メタデータ） (Tue, 21 Feb 2023 17:06:46 GMT)
AutoMLの実践（課題と対策）についてインタビュー（19人）から整理した論文
実践者に対するインタビューはとても参考になるのと「AutoMLの不備については良く知りつつ実用的に対応している」という点がやや驚きだった。使えそうであれば様々な方法で克服していけるのであれば最近の対話系モデルもどうにかして実用していけるのかもと思わなくもない。

信頼できるAIとCausality

A Review of the Role of Causality in Developing Trustworthy AI Systems [16.3]
最先端のAIモデルは、現実世界の人間の理解を支配する因果関係の理解がほとんどない。近年,AIモデルの信頼性を向上するための強力なツールとして因果モデリングや推論手法が登場している。
論文参考訳（メタデータ） (Tue, 14 Feb 2023 11:08:26 GMT)
Trustworthy AIに対する因果推論や因果モデリングの役割を整理したサーベイ
Interpretability、Fairness、Robustness、Privacy、Safety and Accountability(Auditing)に対する因果性の効果が整理されている

機械翻訳におけるScaling Law

Scaling Laws for Multilingual Neural Machine Translation [45.6]
モデルサイズの増加がモデル性能に与える影響について検討し,スケーリング行動におけるトレーニング混合物組成の役割について検討した。学習混合物中の個々の言語ペアの重み付けの変化は,スケーリング法則の乗法的要因にのみ影響することがわかった。我々は、どんな言語重み付けでも訓練された多言語モデルの性能を予測するために、我々の観測を活用している。
論文参考訳（メタデータ） (Sun, 19 Feb 2023 18:43:24 GMT)
マルチリンガルな機械翻訳におけるScaling Lawの検証結果。興味深い結果が多いが近しい言語のマルチリンガル翻訳は効果が大きいという説に対して「(En→{De, Fr})への翻訳を訓練したモデルと、非関連言語(En→{De, Zh})で訓練したモデルのスケーリング挙動に有意な差はみられない。」という結果は面白い。
staka/takomt · Hugging Faceとか個人でやるには結構大変で当面はJA⇔ENに注力しようと思っているがとても面白い論文。

対話システムにおけるSafe, Rensponsible, Moralのサーベイ

Recent Advances towards Safe, Responsible, and Moral Dialogue Systems: A Survey [51.8]
安全・責任・モダル対話システム構築に向けた研究範囲の新たな視点を提示する。本稿では,1)虐待的・有害な内容,2)不公平・差別,3)倫理的・道徳的問題,および4)誤認・プライバシー情報のリスクについて論じる。
論文参考訳（メタデータ） (Sat, 18 Feb 2023 09:32:55 GMT)
最近話題の対話システムに対して社会実装上避けては通れない要素のサーベイ
5章のトレンドも参考になる
- 1) explainable safety monitoring
- 2) continuous learning of safety issues
- 3) robustness against malicious attacks
- 4) multimodal information processing
- 5) unified research framework
- 6) multidisciplinary theory integration

RealFusion: 360

RealFusion: 360{\deg} Reconstruction of Any Object from a Single Image [98.5]
対象物の全360度写真モデルを1枚の画像から再構成する際の問題点を考察する。我々は拡散に基づく自己条件付き画像生成装置を取り、オブジェクトの新たなビューを夢見るように促すプロンプトを設計する。
論文参考訳（メタデータ） (Tue, 21 Feb 2023 13:25:35 GMT)
1枚の画像から360度の写真モデルを再構成、デモが凄い
2次元の学習済みDiffusion Modelを知識源として使っており、パイプライン構成が想像して作る人間っぽいと思ってしまった
リポジトリはRealFusion: 360° Reconstruction of Any Object from a Single Image (lukemelas.github.io)

VoxFormer

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion [129.6]
VoxFormerはTransformerベースのセマンティックシーン補完フレームワークである。 2D画像のみから完全な3Dセマンティクスを出力できる。幾何学では20.0%、意味論では18.1%の相対的な改善で芸術の状態を上回ります。
論文参考訳（メタデータ） (Thu, 23 Feb 2023 18:59:36 GMT)
ボクセルが扱えるTransformer、一枚の画像から３次元形状の予測が可能で見えない部分についても一定の予測ができいるように見える。
リポジトリはGitHub – NVlabs/VoxFormer: A Cutting-edge Baseline for 3D Semantic Occupancy Prediction

Deep Anomaly Detection under Labeling Budget Constraints

Deep Anomaly Detection under Labeling Budget Constraints [37.0]
予算制約の下で最適なデータカバレッジを持つデータラベリング戦略を提案する。また,半教師付き異常検出のための新しい学習フレームワークを提案する。
論文参考訳（メタデータ） (Wed, 15 Feb 2023 18:18:35 GMT)
予算制約がある中での異常検知手法としてSOEL(Semi-supervised outlier exposure with limited labeling budget)を提案

Prompt Injection

More than you’ve asked for: A Comprehensive Analysis of Novel Prompt Injection Threats to Application-Integrated Large Language Models [64.7]
検索とAPI呼び出し機能を備えた大規模言語モデルの拡張は、全く新しい攻撃ベクトルを誘導することを示す。これらのLSMは、敵によって事前に注入され選択された悪意のあるプロンプトを含むWebから検索された有毒なコンテンツを処理する。
論文参考訳（メタデータ） (Thu, 23 Feb 2023 17:14:38 GMT)
プロンプトインジェクションに関する論文、指摘されている通りApplication-Integrated LLMでは大きな脅威になりうる（そして対策も難しい）。この論文では信頼できない外部ソースを取りに行かせるタイプの攻撃をIndirect Prompt Injectionと呼んでおり、Bingの新機能のようにデータを取得しに行くタイプのLLMでは問題になりそう（もちろん、将来ToolformerのようにAPIを呼びに行くようなAIではさらに問題が大きい）
下記のようにうまくプロンプトを作ろうとする方向性もあれば、攻撃できないかという方向性もあり、研究は様々だと思う。（解析的に明らかにしにくい分野でもあり多方面からの研究は非常に重要だとも思う）

Prompting GPT-3 To Be Reliable [117.2]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (Mon, 17 Oct 2022 14:52:39 GMT)
GitHub – NoviScl/GPT3-Reliability

LLaMA

Introducing LLaMA: A foundational,65-billion-parameter large languagemodel
LLaMAは、研究者がAIのこのサブフィールドで研究を進めるのを助けるために設計された基礎的な大きな言語モデルである。ファンデーションモデルはラベルのない大量のデータをトレーニングするので、さまざまなタスクの微調整に理想的です。

フリーの大規模言語モデルで65BパラメータでGPT-3 (175B)を上回りPaLM（540B）に匹敵とのこと。オープンなモデルではあるがNon-Commercial用途のよう。

GPU-hourの比較が載っているがLLaMA（7B）で82432、LLaMA（65B）は1022362、p4d.24xlargeのオンデマンド価格（8 GPU hour）が32.77 USD、4500円くらいなので、7Bで良ければ5000万円くらいでトレーニングできる（オンデマンドでやる人はいないはずで実態はもっと安いだろうけど…）

主要なデータが英語のEnglish CommonCrawl [67%]、WikipediaとBooksデータは bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, ukを使用とのことで日本語の性能は期待できなさそう。（他例を見るとそれなりに使えたりもするかもしれないが・・・）

LLaMA: Open and Efficient Foundation Language Models – Meta Research (facebook.com)

GitHub – facebookresearch/llama: Inference code for LLaMA models

2026年3月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31