2023年2月 – arXiv最新論文の紹介

VoxFormer

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion [129.6]
VoxFormerはTransformerベースのセマンティックシーン補完フレームワークである。 2D画像のみから完全な3Dセマンティクスを出力できる。幾何学では20.0%、意味論では18.1%の相対的な改善で芸術の状態を上回ります。
論文参考訳（メタデータ） (Thu, 23 Feb 2023 18:59:36 GMT)
ボクセルが扱えるTransformer、一枚の画像から３次元形状の予測が可能で見えない部分についても一定の予測ができいるように見える。
リポジトリはGitHub – NVlabs/VoxFormer: A Cutting-edge Baseline for 3D Semantic Occupancy Prediction

Deep Anomaly Detection under Labeling Budget Constraints

Deep Anomaly Detection under Labeling Budget Constraints [37.0]
予算制約の下で最適なデータカバレッジを持つデータラベリング戦略を提案する。また,半教師付き異常検出のための新しい学習フレームワークを提案する。
論文参考訳（メタデータ） (Wed, 15 Feb 2023 18:18:35 GMT)
予算制約がある中での異常検知手法としてSOEL(Semi-supervised outlier exposure with limited labeling budget)を提案

Prompt Injection

More than you’ve asked for: A Comprehensive Analysis of Novel Prompt Injection Threats to Application-Integrated Large Language Models [64.7]
検索とAPI呼び出し機能を備えた大規模言語モデルの拡張は、全く新しい攻撃ベクトルを誘導することを示す。これらのLSMは、敵によって事前に注入され選択された悪意のあるプロンプトを含むWebから検索された有毒なコンテンツを処理する。
論文参考訳（メタデータ） (Thu, 23 Feb 2023 17:14:38 GMT)
プロンプトインジェクションに関する論文、指摘されている通りApplication-Integrated LLMでは大きな脅威になりうる（そして対策も難しい）。この論文では信頼できない外部ソースを取りに行かせるタイプの攻撃をIndirect Prompt Injectionと呼んでおり、Bingの新機能のようにデータを取得しに行くタイプのLLMでは問題になりそう（もちろん、将来ToolformerのようにAPIを呼びに行くようなAIではさらに問題が大きい）
下記のようにうまくプロンプトを作ろうとする方向性もあれば、攻撃できないかという方向性もあり、研究は様々だと思う。（解析的に明らかにしにくい分野でもあり多方面からの研究は非常に重要だとも思う）

Prompting GPT-3 To Be Reliable [117.2]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (Mon, 17 Oct 2022 14:52:39 GMT)
GitHub – NoviScl/GPT3-Reliability

LLaMA

Introducing LLaMA: A foundational,65-billion-parameter large languagemodel
LLaMAは、研究者がAIのこのサブフィールドで研究を進めるのを助けるために設計された基礎的な大きな言語モデルである。ファンデーションモデルはラベルのない大量のデータをトレーニングするので、さまざまなタスクの微調整に理想的です。

フリーの大規模言語モデルで65BパラメータでGPT-3 (175B)を上回りPaLM（540B）に匹敵とのこと。オープンなモデルではあるがNon-Commercial用途のよう。

GPU-hourの比較が載っているがLLaMA（7B）で82432、LLaMA（65B）は1022362、p4d.24xlargeのオンデマンド価格（8 GPU hour）が32.77 USD、4500円くらいなので、7Bで良ければ5000万円くらいでトレーニングできる（オンデマンドでやる人はいないはずで実態はもっと安いだろうけど…）

主要なデータが英語のEnglish CommonCrawl [67%]、WikipediaとBooksデータは bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, ukを使用とのことで日本語の性能は期待できなさそう。（他例を見るとそれなりに使えたりもするかもしれないが・・・）

LLaMA: Open and Efficient Foundation Language Models – Meta Research (facebook.com)

GitHub – facebookresearch/llama: Inference code for LLaMA models

週間ChatGPT

先週もChatGPTの話題は多かった。

ChatGPT: Jack of all trades, master of none [4.7]
OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースした。 25種類のNLPタスクにおけるChatGPTの機能について検討した。本研究は,最近の予測型NLPモデルの高品質化が,ツールの社会への有用性を示すかどうか,基本的な議論の基盤となるものである。
論文参考訳（メタデータ） (Tue, 21 Feb 2023 15:20:37 GMT)
ChatGPTのタスク別の性能
概ね他の結果と同じだが、「It also provides a unique selfexplanation capability that facilitates human understanding and adaptation to the expected outcome.」という記載は特徴的。それはexplanationなのかという疑問はあるが…。

A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT [0.0]
BERT、GPT-3、MAE、DALLE-E、ChatGPTといった事前訓練された基礎モデルは、大規模データに基づいて訓練される。 PFMの驚異的な成功により、AIはここ数年、さまざまな分野に波を広げてきた。
論文参考訳（メタデータ） (Sat, 18 Feb 2023 20:51:09 GMT)
BERTからChatGPTに至るまで最近のPretrained Foundation Models (PFMs) に関する大規模なサーベイ

How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation [16.9]
GPTモデルは高資源言語に対して非常に競争力のある翻訳品質を実現する。また、GPTモデルと他の翻訳システムを組み合わせたハイブリッドアプローチにより、翻訳品質をさらに向上できることを示す。
論文参考訳（メタデータ） (Sat, 18 Feb 2023 02:11:36 GMT)
GPTを用いた機械翻訳、高リソースな言語に対しては非常に強力な性能でMS Translatorと拮抗しているように見える
通常の機械翻訳モデルとの組み合わせも有効とのことで、通常のNMTとは似て非なるシステムになっているようにも感じた。その理由は定かではないが、文脈を読みその後を出力することが本業のGPT系モデルと（MS Translatorの実装にもよるが）単文翻訳から進化し文脈考慮は後で進化したNMTの違いだったりすると面白いなと思う。

Dictionary-based Phrase-level Prompting of Large Language Models for Machine Translation [91.6]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。 LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。 LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文参考訳（メタデータ） (Wed, 15 Feb 2023 18:46:42 GMT)
LLMによる機械翻訳では辞書の併用に効果があるとする報告
確かに効果はあるのだろうがどのように使いやすくしていくかという点が悩ましい

Zero-Shot Information Extraction via Chatting with ChatGPT [56.8]
ゼロショット情報抽出(IE)は、注釈のないテキストからIEシステムを構築することを目的としている。大規模言語モデル(LLMs、GPT-3、ChatGPT)に対する最近の取り組みは、ゼロショット設定での有望なパフォーマンスを示している。ゼロショットIEタスクを2段階フレームワーク(ChatIE)でマルチターン質問応答問題に変換する。
論文参考訳（メタデータ） (Mon, 20 Feb 2023 12:57:12 GMT)
ゼロショットでの知識抽出タスクへのChatGPTの応用
２段階のフレームワークとすることで性能が上がったとのこと。このあたり使い方でカバーしていくのが最近という気がする
リポジトリはhttps://github.com/cocacola-lab/ChatIEとのことだが、現時点では４０４、https://github.com/cocacola-lab/GPT4IEはtext-davinci-003を使っているよう？

Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT [103.6]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。 2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文参考訳（メタデータ） (Sun, 19 Feb 2023 12:29:33 GMT)
BERT / RoBERTa vs ChatGPTをGLUEで検証、タスクによって結果は様々でChatGPTは推論系タスクでは高い性能を発揮する一方でparaphrase 、similarity tasksが弱いとのこと。平均値ではBERT-baseレベルに若干足りない程度でRoBERTや-largeモデルには負けている感じ。これを高いとみるか低いとみるかは感覚が分かれるだろうが、fine tuningがいらない使いやすさを考えると高い性能と受け止める人が多そうな気がする。

On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective [33.3]
本研究は,ChatGPTの強靭性について,敵対的視点とアウト・オブ・ディストリビューションOODの観点から評価する。以上の結果から,ChatGPTは敵対的・OOD分類タスクにおいて一貫した優位性を示すものではないことが示唆された。 ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文参考訳（メタデータ） (Wed, 22 Feb 2023 11:01:20 GMT)
ChatGPTをRobustnessの観点で検証、Microsoftの論文
GPT-3, GPT-3.5, ChatGPTともにRobustnessさが優れているとの検証結果で機械翻訳ではGPT-Xが有利、adversarial classiﬁcationではChatGPTが有利という結果になっている
データセット構築の狙いなど考慮点は多そうではあるが、大規模言語モデルの方が堅牢というのはありそうな結果だと思う

MarioGPT

MarioGPT: Open-Ended Text2Level Generation through Large Language Models [9.9]
タイルベースのゲームレベルを生成するために訓練された細調整GPT2モデルであるMarioGPTを紹介する。我々は,MarioGPTが多様なレベルを生成できるだけでなく,制御可能なレベル生成のためにテキストをプロンプできることを示す。
論文参考訳（メタデータ） (Sun, 12 Feb 2023 19:12:24 GMT)
Text2Level Generationという名称のテキストからのゲーム面の生成。これを生成してみようと思うのが面白い。
（割とどうでもよいが）内部的にはテキストを合成しているのでテキスト生成にカテゴライズするのが良いのか、プログラムのソースコード相当と考えてコード自動生成とするか悩ましい。

Transformer models: an introduction and catalog

Transformer models: an introduction and catalog [1.4]
本論文の目的は,最もポピュラーなTransformerモデルのカタログと分類を提供することである。論文には、Transformerモデルにおける最も重要な側面とイノベーションの紹介も含まれている。
論文参考訳（メタデータ） (Thu, 16 Feb 2023 05:31:15 GMT)
Transformerのカタログ
モデルカード的な情報がありがたいのと、 Date (of ﬁrst known publication)があるのが非常に助かる

Symbolic Discovery of Optimization Algorithms

Symbolic Discovery of Optimization Algorithms [132.6]
本稿では,プログラム探索として定式化し,深層ニューラルネットワーク学習のための最適化アルゴリズムの発見に応用する。効率的な探索手法を利用して、無限小のプログラム空間を探索する。本手法は,単純な最適化アルゴリズムである$textbfLion$$textitEvo$textbfL$ved S$textbfi$gn Mtextbfo$metextbfn$tum$。
論文参考訳（メタデータ） (Mon, 13 Feb 2023 20:27:30 GMT)
Adamよりも性能の高い最適化方法の提案
すでにたくさんの突っ込みが入れられているが、Lion (EvoLved Sign Momentum) は無理ありすぎな略称だと思う

The unreasonable effectiveness of few-shot learning for machine translation

The unreasonable effectiveness of few-shot learning for machine translation [45.5]
我々は,高解像度と低解像度の両言語ペアに対して,未ペア言語データで訓練された少数ショット翻訳システムの可能性を実証する。自己教師付き学習のみで訓練されたトランスフォーマーデコーダのみのモデルが、専門的な教師付き最先端モデルと一致することを示す。
論文参考訳（メタデータ） (Thu, 2 Feb 2023 20:19:46 GMT)
Few-shotで特化型モデルを超えるというのはほんまかいな・・・という結果

FairPy

FairPy: A Toolkit for Evaluation of Social Biases and their Mitigation in Large Language Models [7.3]
大規模な事前訓練された言語モデルは、人種、性別等に基づく社会集団に対する偏見を示すことが研究で示されている。様々な研究者がこれらのバイアスを定量化し識別するための数学的ツールを提案している。本稿では,人種,性別,民族,年齢など,さまざまなバイアスの包括的定量的評価を行う。
論文参考訳（メタデータ） (Fri, 10 Feb 2023 20:54:10 GMT)
バイアスの定量化、緩和のためのフレームワーク。様々な手法に対応。
リポジトリはGitHub – HrishikeshVish/Fairpy

2023年2月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28