staka – ページ 157 – arXiv最新論文の紹介

A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models

A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [59.5]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。 2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。 21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文参考訳（メタデータ） (Sat, 18 Mar 2023 14:02:04 GMT)
GPTシリーズモデルの性能比較
学習戦略やデータセットとの相性によって新しいモデルが常に優れているわけではないというのが興味深い。個人的にはtext-davinci-002から003の間でかなりの性能差があったように思うがタスクにもよるっぽい。
日本語での評価も知りたいところ。（比較すればよいって話ではあるが。。。）

MEGA: Multilingual Evaluation of Generative AI

MEGA: Multilingual Evaluation of Generative AI [6.3]
生成AIモデルは、多くの自然言語処理タスクにおいて印象的なパフォーマンスを持つ。ジェネレーティブ・Large Language Models (LLMs) に関するほとんどの研究は英語に限られている。これらのモデルが、他の言語を理解して生成する能力がどの程度あるかは定かではない。
論文参考訳（メタデータ） (Wed, 22 Mar 2023 13:03:10 GMT)
データセット、プロンプト、翻訳有無など設定が難しいLLMの多言語評価に関する論文。現時点ではコード等が公開されていないが、”We plan to release the MEGA benchmarking code to facilitate this.”にも”We plan to conduct a similar benchmarking of GPT4 in the near future.”にも期待大
davinci-003の結果は「健闘しているがfine tuningされたSoTAレベルには及ばず」「翻訳を介するtranslate-test が有効」という感じだが、GPT-4でどう変わっているかが気になるところ。

Edit-A-Video

Edit-A-Video: Single Video Editing with Object-Aware Consistency [21.0]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文参考訳（メタデータ） (Thu, 23 Mar 2023 03:04:45 GMT)
テキストによる動画編集。「人間がギターを弾いているビデオ」＋「“a bear is playing a guitar”」という入力で、ギターを弾いている人をクマに変更ができる。
画像でできたことは動画でもできる、というのはわかるがとても面白い。
プロジェクトサイトはEdit-A-Video<span>:</span> Single Video Editing with Object-Aware Consistency

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning [16.1]
タスクのセマンティクスは入力から出力までの例のセットやテキストによる命令で表現できる。コミュニティは、NLPの新しい監視-探索パラダイム、すなわちタスク命令から学ぶことに、ますます関心を払っている。
論文参考訳（メタデータ） (Tue, 21 Mar 2023 01:27:16 GMT)
PromptのようなInstruction Learningのサーベイ
新興分野でもありまた現在の流行の中で重要な要素でもあり、歴史を振り返る上でも参考になる

EVA-02: A Visual Representation for Neon Genesis

EVA-02: A Visual Representation for Neon Genesis [49.9]
EVA-02はトランスフォーマーをベースとした次世代の視覚表現で、頑丈で堅牢な言語対応の視覚機能を再構築するために事前訓練されている。モデルサイズは6Mから304Mのパラメータで、4種類のEVA-02が提供されています。
論文参考訳（メタデータ） (Wed, 22 Mar 2023 14:10:37 GMT)
非常に規模が大きいわけでもないが強力なVision Transformersの提案。オープンライセンスのモデルが公開されている。
リポジトリはEVA/EVA-02 at master · baaivision/EVA · GitHub

PANGU-Σ

PanGu-{\Sigma}: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing [64.5]
PanGu-SigmaはAscend 910 AIプロセッサとMindSporeフレームワークのクラスタでトレーニングされている。さまざまな中国のNLPダウンストリームタスクのゼロショット学習において、最先端のパフォーマンスを提供する。
論文参考訳（メタデータ） (Mon, 20 Mar 2023 03:39:27 GMT)
1.085T パラメータの非常に大規模な言語モデル
学習戦略やデータセット、ベンチマーク結果まで詳細を公開している印象。2600億パラメータのERNIE 3.0 Titanよりも性能が優れており、規模の大きさが効いていそうなことが伺える

GPT-4の話題、Bardの登場

今週もGPT-4関連の話題、論文が多く出ていた。GoogleのBardが出たり「Sign up to try Bard from Google (blog.google)」、CopilotがGPT-4に対応したり「GitHub Copilot X: The AI-powered developer experience | The GitHub Blog」、ChatGPTにPlugin機能が付いたり「ChatGPT plugins (openai.com)」、llama_indexが対応したり「llama_index/ChatGPT_Retrieval_Plugin_Upload.ipynb at main · jerryjliu/llama_index · GitHub」と関連する話題も多かった。

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models [0.4]
ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)は、経済的、社会的、政策的な意味を持つ可能性がある。アメリカの労働力の約80%は、GPTの導入によって影響を受ける仕事の少なくとも10%を担っていた。
論文参考訳（メタデータ） (Wed, 22 Mar 2023 03:32:25 GMT)
GPT-4による仕事への影響を整理した論文。「影響を受ける＝GPT-4により50%以上時間削減が可能」で80%の労働者のタスクの10%に影響というだけでも結構な規模になる。高度な仕事への影響の方が大きいというのも特徴的

Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文参考訳（メタデータ） (Wed, 22 Mar 2023 16:51:28 GMT)
「Given the breadth and depth of GPT-4’s capabilities, we believe that it could reasonably be viewed as an early (yet still incomplete) version of an artiﬁcial general intelligence (AGI) system.」（GPT-4の能力の幅と深さを考えると、人工知能(AGI)システムの初期の(まだ不完全な)バージョンと見なすことができると考えています。 ※FuguMT訳）という衝撃的な記載のある論文。
ほんまかいな、であり、見方によっては、という注釈も付くわけだが、ひとつ前の論文も含めて社会的インパクトが相当あるのは間違いなさそうではある。

Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine [39.2]
われわれはChatGPTが推奨するプロンプトを採用して、その翻訳能力をトリガーし、候補のプロンプトが一般的にうまく機能し、性能差が小さいことを確かめる。 ChatGPTは、高リソースのヨーロッパ言語で商用翻訳製品と競合するが、低リソースまたは遠方の言語ではかなり遅れている。 GPT-4エンジンのローンチにより、ChatGPTの翻訳性能は大幅に向上し、遠隔言語でも商用翻訳製品に匹敵するものとなった。
論文参考訳（メタデータ） (Sun, 19 Mar 2023 11:53:20 GMT)
GPT-4によって機械翻訳品質が商用製品レベルになったとする論文（もともとGPT-3.5までを扱っていた論文のアップデート）
GPT-3.5、ChatGPTまでであれば商用製品の性能には及んでいなかったが、GPT-4では商用製品レベルに達しているとのこと。個人的に英語→日本語で検証した結果（GPT-4を用いた翻訳の検証（vs GPT-3.5 vs FuguMT） | ぷるーふおぶこんせぷと (staka.jp)）も同じ傾向。なかなか衝撃的。

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need? [112.1]
生成AI(AIGC、つまりAI生成コンテンツ)は、テキスト、画像、その他を分析、作成する能力により、あらゆる場所で話題を呼んだ。純粋な分析から創造へと移行するAIの時代において、ChatGPTは最新の言語モデルであるGPT-4とともに、多くのAIGCタスクからなるツールである。本研究は,テキスト,画像,ビデオ,3Dコンテンツなど,出力タイプに基づいたAIGCタスクの技術的開発に焦点を当てている。
論文参考訳（メタデータ） (Tue, 21 Mar 2023 10:09:47 GMT)
生成AI（ Generative AI (AIGC, a.k.a AI-generated content) ）に関するサーベイ
現在の動きを概観するのに良い論文

Reflexion: an autonomous agent with dynamic memory and self-reflection [0.0]
本稿では,動的メモリと自己回帰機能を備えたエージェントを実現する手法であるReflexionを提案する。我々は,AlfWorld環境における意思決定タスクを完了させるエージェントの能力と,HotPotQAにおける知識集約型質問応答タスクを評価する。
論文参考訳（メタデータ） (Mon, 20 Mar 2023 18:08:50 GMT)
LLMを繰り返し使い結果を改善していくReflexionの提案
本論文の著者によるHumanEvalでの効果がとても高く驚き（GitHub – noahshinn024/reflexion-human-eval）
リポジトリはGitHub – noahshinn024/reflexion: Reflexion: an autonomous agent with dynamic memory and self-reflection

その他、arXivではないがGPT-3をマーケティングに使うというUsing GPT for Market Research by James Brand, Ayelet Israeli, Donald Ngwe :: SSRN（GPT-3モデルは,ランダムに選択された顧客であるかのように促されると富と状態依存を伴う価格感度の低下を含む経済理論と整合する多くの行動を示す。GPT-3が生成する製品や特徴に対する支払い意欲の推定は妥当な大きさである。マーケティング目的でGPT-3から情報をクエリする最善の方法に関する予備ガイドラインを提供する。）が面白かった

A Picture is Worth a Thousand Words: Language Models Plan from Pixels

A Picture is Worth a Thousand Words: Language Models Plan from Pixels [53.9]
計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
論文参考訳（メタデータ） (Thu, 16 Mar 2023 02:02:18 GMT)
Visualプロンプトによる計画作成。PLMをうまく使うためソフトプロンプトの形でデータを扱っているよう
言語モデルか？という感じの使い方もかなりうまく動く報告が多くて面白い。GPT-4ではマルチモーダル対応でもう少しうまく取り合変えそう（将来的にはTextlessNLPっぽく扱ったりするんだろうか。）

Users are the North Star for AI Transparency

Users are the North Star for AI Transparency [111.6]
透明な人工知能システムを求める声が広まっているにもかかわらず、この用語は、厳密な政策の目的や具体的な研究ラインのオリエント化を表すために、多義的な意味に過大評価されている。このことが起こる理由の1つは、AI透明性の明確な理想が、この仕事の体で実現されないことである。透明性はユーザ中心で、ユーザ指向で、誠実です。
論文参考訳（メタデータ） (Thu, 9 Mar 2023 18:53:29 GMT)
AIの透明性（AI Transparency）について調査した論文で、様々な文脈・意図で使われていることが分かる。
何とか性とカテゴライズすると安心しがちだが、実はその解釈が異なっていることは多いので詳細を詰めていくことはとても重要。

CaFo: Cascade of Foundation models

Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners [55.1]
CaFoは、様々な事前学習パラダイムの様々な事前知識を取り入れた、ファウンデーションのカスケードモデルである。私たちのCaFoには、CLIPの言語コントラスト知識、DINOの視覚コントラスト知識、DALL-Eの視覚生成知識、GPT-3の言語生成知識が含まれています。
論文参考訳（メタデータ） (Fri, 3 Mar 2023 18:58:16 GMT)
Foundationモデルを複数使うことによりfew shotでの画像分類で優れた性能を実現。寄せ集め感もあるがちゃんと性能が向上していて各モデルの知識が引き出せているのが面白い。
プロジェクトサイトはGitHub – ZrrSkywalker/CaFo: [CVPR 2023] Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31