arXiv – ページ 236 – arXiv最新論文の紹介

Multilingual Grade School Math (MGSM) ベンチマーク

Language Models are Multilingual Chain-of-Thought Reasoners [83.4]
本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。 MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。
論文参考訳（メタデータ） (Thu, 6 Oct 2022 17:03:34 GMT)
- GSM8Kデータセットから,250の問題を手動で翻訳して Multilingual Grade School Math (MGSM)ベンチマークを作成し多言語における大規模言語モデルの性能評価
- EN-COT > Native-COTである点は興味深い（そして翻訳を介するのがもっとの性能が高いのも…）
- リポジトリはgoogle-research/url-nlp (github.com)

Backdoor Attacks in the Supply Chain of Masked Image Modeling

Backdoor Attacks in the Supply Chain of Masked Image Modeling [26.9]
Masked Image Modeling (MIM)は、イメージ事前トレーニングのための自己教師付き学習(SSL)に革命をもたらす。本稿では,バックドア攻撃のレンズを用いてMIMの最初のセキュリティリスク定量化を行う。評価の結果、MIMで構築したモデルは、リリースおよびダウンストリームフェーズにおける既存のバックドアアタックに対して脆弱であることがわかった。
論文参考訳（メタデータ） (Tue, 4 Oct 2022 14:27:42 GMT)
- MIM(Masked Image Modeling)を用いたモデルに対し、構築過程ごとにリスク分析を行った論文。驚きの結果というわけではないが、攻撃方法（前提）の整理がとても参考になる。

AMA: Ask Me Anything

Ask Me Anything: A simple strategy for prompting language models [24.3]
大規模言語モデル(LLM)は、単にタスクの実行方法を示す自然言語プロンプトを与えられただけで、追加のトレーニングは行われない。本研究では,質問応答(QA)のプロンプトが,モデル出力を制限するプロンプトよりも優れていることを示す。収集したプロンプトを適用して、入力の真のラベルに対していくつかのノイズの多い投票を行う。プロンプトは、非常に異なる精度と複雑な依存関係を持つことができる。
論文参考訳（メタデータ） (Thu, 6 Oct 2022 06:39:56 GMT)
- タスクをQA方式に変換、複数の回答を束ねることで性能を向上。open-source のGPT-J-6B でfew-shotのGPT3-175Bを超える性能を出せるとのこと。
- リポジトリはHazyResearch/ama_prompting: Ask Me Anything language model prompting (github.com)

MEDFAIR: 医療画像処理の公平性ベンチマーク

MEDFAIR: Benchmarking Fairness for Medical Imaging [44.7]
MEDFAIRは、医療画像のための機械学習モデルの公正性をベンチマークするフレームワークである。モデル選択基準の未検討の問題は、公正な結果に重大な影響を及ぼす可能性がある。異なる倫理的原則を必要とするさまざまな医療応用シナリオを推奨する。
論文参考訳（メタデータ） (Tue, 4 Oct 2022 16:30:47 GMT)
- 医療画像解析における公平性ベンチマーク。特定グループで性能差がないなどのベンチマークが可能。
- リポジトリはys-zong/MEDFAIR: MEDFAIR: Benchmarking Fairness for Medical Imaging (github.com)

MuRAG: マルチモーダルなRAG

MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text [58.7]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10～20%精度が高いことがわかった。
論文参考訳（メタデータ） (Thu, 6 Oct 2022 13:58:03 GMT)
- マルチモーダルなRAG、モダリティを追加することで性能も相応に向上している。

GLM-130B

GLM-130B: An Open Bilingual Pre-trained Model [40.6]
我々は,130億のパラメータを持つバイリンガル(英語と中国語)事前学習言語モデルであるGLM-130Bを紹介する。 100Bスケールのモデルを少なくともGPT-3と同程度にオープンソース化する試みである。本稿では, GLM-130Bの設計選択, 効率と安定性の両面でのトレーニング戦略, エンジニアリングの取り組みを含む, GLM-130B のトレーニングプロセスを紹介する。
論文参考訳（メタデータ） (Wed, 5 Oct 2022 17:34:44 GMT)
- 英語・中国語バイリンガルな大規模言語モデル、モデルやトレーニングプロセスが公開されている、性能が高い以外にもRTX 3090 (24G)×4という構成で動作可能なのは凄い
- リポジトリはTHUDM/GLM-130B: GLM-130B: An Open Bilingual Pre-Trained Model (github.com)

XDoc: Unified Pre-training for Cross-Format Document Understanding

XDoc: Unified Pre-training for Cross-Format Document Understanding [84.6]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。 XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文参考訳（メタデータ） (Thu, 6 Oct 2022 12:07:18 GMT)
- ドキュメント理解のため異なる文書フォーマットを単一のモデルで扱う統一事前学習モデルXdocを提案。
  - 省パラメータで様々な文章形式に対応できるのはありがたいが、（当たり前かもだが？）現時点ではそれぞれのSoTAには及んでいないよう。
- リポジトリはunilm/xdoc at master · microsoft/unilm (github.com)

機械学習における要求工学

Requirements Engineering for Machine Learning: A Review and Reflection [39.0]
本稿では,機械学習アプリケーションにおける要件工学プロセスの概要について述べる。産業データ駆動インテリジェンスアプリケーションの例も、前述のステップに関連して議論されている。
論文参考訳（メタデータ） (Mon, 3 Oct 2022 12:24:39 GMT)
- 機械学習アプリケーションにおける要求をレビューした論文。CRISP-DM と CRISP-ML(Q)の差のようにデータ分析とは異なる点が面白い。
- 「Fig 1: General collaborations of Stakeholders involved in ML Application Development」は役割分担（興味）を整理するうえでも面白い。

Imagen Video

Imagen Video: High Definition Video Generation with Diffusion Models [64.1]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。 imagen videoは忠実度の高い動画を生成するだけでなく、さまざまな芸術スタイルで多様なビデオやテキストアニメーションを生成できる機能や、3dオブジェクト理解機能など、高度な制御性と世界の知識も備えている。
論文参考訳（メタデータ） (Wed, 5 Oct 2022 14:41:38 GMT)
- Imagenの動画版、低解像度・低フレームレートの動画から画像方向・時間方向の両面で超解像度化を行っている
- プロジェクトサイトはImagen Video (research.google)

Binding Language Models in Symbolic Languages

Binding Language Models in Symbolic Languages [146.3]
Binderはトレーニング不要のニューラルシンボリックフレームワークで、タスク入力をプログラムにマッピングする。解析の段階では、Codexは元のプログラミング言語では答えられないタスク入力の一部を特定することができる。実行段階では、CodexはAPI呼び出しで適切なプロンプトを与えられた万能機能を実行することができる。
論文参考訳（メタデータ） (Thu, 6 Oct 2022 12:55:17 GMT)
- コード生成を通じて複数プログラミング言語等を横断するAPI利用を実現、fine tuningなしでWikiTableQuestionsなどでSoTAとのこと。end-to-end approaches (high coverage) とsymbolic approaches (high interpretability)の両立を実現。
- リポジトリはHKUNLP/Binder: Code for our paper “Binding Language Models in Symbolic Languages” (github.com)

2026年3月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31