arXiv最新論文の紹介

ElitePLM: PLMの能力評価

ElitePLM: An Empirical Study on General Language Ability Evaluation of Pretrained Language Models [78.1]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文参考訳（メタデータ） (Tue, 3 May 2022 14:18:10 GMT)
- Pretrained Language Modelの詳細評価。PLMといっても事前学習の内容やデータ、モデルサイズなど多種多様でそれがどのような能力を持つか（何に適しているか）参考になる。
- リポジトリはGitHub – RUCAIBox/ElitePLM

Polyglot Prompt：マルチリンガル、マルチタスクなプロンプト

Polyglot Prompt: Multilingual Multitask PrompTraining [35.7]
異なる言語から異なるタスクを(タスク/言語固有のモジュールを使わずに)モノリシックなフレームワークでモデル化できるだろうか? 学習フレームワークであるPolyglot Promptを開発し、適切な多言語プロンプトエンジニアリングの後、異なる言語やタスクの統一的な意味空間を学習するためのプロンプト手法を導入する。
論文参考訳（メタデータ）参考訳（全文） (Fri, 29 Apr 2022 17:40:50 GMT)
- 英語を対象とすることが多いprompt系のモデルをマルチリンガルで、という報告。
- Cross-lingual zero-shot transferが一定程度可能そうなのが興味深い。また、「(1) Could different languages beneﬁt from each other by a monolithic framework?」「Yes」や「(2) Why does PolyPrompt work?」「The performance improvement of PolyPrompt mainly comes from the languages of non-Indo-European language families」という議論も面白い。日本語を扱う場合も重要だと思う。
- リポジトリはGitHub – jinlanfu/Polyglot_Prompt、（実態はDataLabs）

Are All the Datasets in Benchmark Necessary?

Are All the Datasets in Benchmark Necessary? A Pilot Study of Dataset Evaluation for Text Classification [39.0]
本稿では,ベンチマーク中のデータセットがすべて必要かどうかについて検討する。 9つのデータセットと36のシステムでの実験では、いくつかの既存のベンチマークデータセットはトップスコアシステムの識別にはほとんど寄与していない。
論文参考訳（メタデータ）参考訳（全文） (Wed, 4 May 2022 15:33:00 GMT)
- データセットによってモデルの識別能力に差があり、いくつかのデータセットは能力の高いモデル識別に寄与していないとの報告。
- 感覚的には自明であり「難しいデータセット」と呼んでいたものはあったが、改めて整理される重要な特性であることが分かる。

Flamingo: DeepMindのVisual Language Models(VLM)

Flamingo: a Visual Language Model for Few-Shot Learning [95.9]
この機能を備えたビジュアル言語モデル(VLM)のファミリーであるFlamingoを紹介します。柔軟性のおかげで、Flamingoモデルは大規模なマルチモーダルWebコーパスでトレーニングできる。一つのFlamingoモデルが、数ショットの学習で新しい最先端の技術を実現できることを実証する。
論文参考訳（メタデータ） (Fri, 29 Apr 2022 16:29:01 GMT)
- DeepMindの大規模VLM。下記16タスク全てでfew-shotでのSoTA、および6つのタスクでfine tuning以上の結果を主張。
  - NextQA
  - iVQA
  - Flick30K
  - STAR
  - MSVDQA
  - OKVQA
  - HatefulMemes
  - VizWiz
  - VATEX
  - VQAv2
  - COCO
  - VisDial
  - TextVQA
  - MSRVTTQA
  - YouCook2
  - RareAct　※fine tuningの結果が得られていないため論文中では省略とのこと

Designing for Responsible Trust in AI Systems

Designing for Responsible Trust in AI Systems: A Communication Perspective [56.8]
我々は、MATCHと呼ばれる概念モデルを開発するために、技術に対する信頼に関するコミュニケーション理論と文献から引き出す。私たちは、AIシステムの能力として透明性とインタラクションを強調します。我々は、技術クリエーターが使用する適切な方法を特定するのに役立つ要件のチェックリストを提案する。
論文参考訳（メタデータ） (Fri, 29 Apr 2022 00:14:33 GMT)
- AIシステムの信頼性が伝達される過程を「model(M) attribute」「system affordances (A) to communicate trustworthiness (T) cues (C) of the AI」「users’ cognitive processing of these cues by invoking trust-related heuristics (H)」に整理、ユースケース分析を行った報告。これら要素をまとめてMATCHと呼んでいる。
- テクノロジーそのものよりも「AIが信頼できると伝える過程」に注目しており非常に興味深い。

EasyNLP：AlibabaのNLPツールキット

EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing [38.9]
EasyNLPは、NLPアプリケーションを簡単に構築できるように設計されている。知識に富んだ事前訓練、知識蒸留、数発の学習が特徴である。 EasyNLPはAlibaba Group内の10以上のビジネスユニットに電力を供給している。
論文参考訳（メタデータ） (Sat, 30 Apr 2022 13:03:53 GMT)
- Alibabaで使用されている（という）NLP用ツールキット。サンプルコードを見る限り非常に使いやすそうな（AutoML並み）印象。
- リポジトリはGitHub – alibaba/EasyNLP: EasyNLP: A Comprehensive and Easy-to-use NLP Toolkit、ライセンスがApache-2というのもありがたい。

OPT(Open Pre-trained Transformer): オープンな大規模言語モデル

OPT: Open Pre-trained Transformer Language Models [99.6]
125Mから175Bのパラメータからなるデコーダのみの事前学習トランスであるOpen Pre-trained Transformers (OPT)を提案する。 OPT-175BはGPT-3に匹敵するが, 炭素フットプリントの1/7しか必要としない。
論文参考訳（メタデータ）参考訳（全文） (Thu, 5 May 2022 11:44:30 GMT)
- GPT-3相当の規模を持つオープンな大規模言語モデル。Data card、Model cardともに論文中にあり、構築過程なども記載がある。
- リポジトリはmetaseq/projects/OPT at main · facebookresearch/metaseq · GitHub

DiffCSE

DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings [51.3]
DiffCSEは、文の埋め込みを学習するための教師なしのコントラスト学習フレームワークである。実験の結果,教師なし文表現学習法では,DiffCSEは最先端の結果が得られることがわかった。
論文参考訳（メタデータ） (Thu, 21 Apr 2022 17:32:01 GMT)
- MLMの学習っぽく単語がマスクされた文とオリジナルデータとの差異（編集）に注目することでsentence embeddingを学習、STS(Semantic Textual Similarity)タスクでSimCSEを上回る優れた性能を達成とのこと。
- リポジトリはGitHub – voidism/DiffCSE: Code for the NAACL 2022 long paper “DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings”

GRIT(General Robust Image Task): 頑健性を考慮した画像処理ベンチマーク

GRIT: General Robust Image Task Benchmark [32.6]
本稿では,GRIT(General Robust Image Task)ベンチマークを紹介する。 GRITは、様々な画像予測タスク、概念、データソースにわたるビジョンシステムの性能、堅牢性、キャリブレーションを評価する。ビジョンモデルによって学習されたスキルや概念を徹底的に評価するための統一プラットフォームを提供することにより、GRITが高性能で堅牢な汎用的なビジョンシステムの開発を促進することを期待する。
論文参考訳（メタデータ） (Thu, 28 Apr 2022 17:13:23 GMT)
- 画像自体の摂動や予測対象の分布が変化した状況下などでモデルが動作するかを検証可能なベンチマーク。 Categorization, Localization, VQA, Referring Expression Segmentation, Pose Keypoint, Surface Normalsの7タスクが対象。
- リポジトリはGitHub – allenai/grit_official: Official repository for the General Robust Image Task (GRIT) Benchmark、Submissions — GRIT Ablation Restricted Leaderboard. – Leaderboards by Allen AIにリーダーボードが存在。

テキストベースの共同作業とNLP

Revise and Resubmit: An Intertextual Model of Text-based Collaboration in Peer Review [52.4]
ピアレビューは、ほとんどの科学分野における出版プロセスの重要な要素である。既存のNLP研究は個々のテキストの分析に重点を置いている。編集補助は、しばしばテキストのペア間の相互作用をモデル化する必要がある。
論文参考訳（メタデータ） (Fri, 22 Apr 2022 16:39:38 GMT)
- ピアレビューを対象にtagging、linking、version alignmentを整理、タスク化・データセットを作成との報告。何かのユースケースを自然言語処理でどう取り扱うかを知る上でもとても参考になる。
- リポジトリはGitHub – UKPLab/f1000rd

2025年6月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30