- PRESTO: A Multilingual Dataset for Parsing Realistic Task-Oriented Dialogs [39.6]
PRESTOは、人間と仮想アシスタント間の550万以上のコンテキスト多言語会話のデータセットである。 現実のNLUタスクで発生する問題、例えば、障害、コードスイッチング、リビジョンなどが含まれる。 我々のmT5モデルに基づくベースラインは、PRESTOに存在する会話現象をモデル化することが困難であることを示している。
論文 参考訳(メタデータ) (Fri, 17 Mar 2023 02:26:52 GMT) - 多言語の会話データセット550K-examples、6言語と大規模。日本語が入っているのがうれしい。ライセンスはクリエイティブ・コモンズ — 表示 4.0 インターナショナル — CC BY 4.0 (creativecommons.org)
- リポジトリはGitHub – google-research-datasets/presto: A Multilingual Dataset for Parsing Realistic Task-Oriented Dialogs
月: 2023年3月
A Survey of Graph Prompting Methods: Techniques, Applications, and Challenges
- A Survey of Graph Prompting Methods: Techniques, Applications, and Challenges [25.3]
限定ラベル付きデータを用いたモデル一般化能力の向上を目的として,事前学習,即時予測の新たな訓練パラダイムが提案されている。 この調査は構造化グラフ間のギャップを埋め、将来の方法論開発を促進するために設計を促す試みである。
論文 参考訳(メタデータ) (Mon, 13 Mar 2023 16:49:43 GMT) - グラフ構造の知識をプロンプトに反映、または、プロンプトを使ってグラフを分析などグラフ構造とPromptを用いたモデルの関係をサーベイした論文
- 短めであるがいろいろな試みがなされているのがわかる。
A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models
- A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [59.5]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。 2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。 21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。 実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文 参考訳(メタデータ) (Sat, 18 Mar 2023 14:02:04 GMT) - GPTシリーズモデルの性能比較
- 学習戦略やデータセットとの相性によって新しいモデルが常に優れているわけではないというのが興味深い。個人的にはtext-davinci-002から003の間でかなりの性能差があったように思うがタスクにもよるっぽい。
- 日本語での評価も知りたいところ。(比較すればよいって話ではあるが。。。)
MEGA: Multilingual Evaluation of Generative AI
- MEGA: Multilingual Evaluation of Generative AI [6.3]
生成AIモデルは、多くの自然言語処理タスクにおいて印象的なパフォーマンスを持つ。 ジェネレーティブ・Large Language Models (LLMs) に関するほとんどの研究は英語に限られている。 これらのモデルが、他の言語を理解して生成する能力がどの程度あるかは定かではない。
論文 参考訳(メタデータ) (Wed, 22 Mar 2023 13:03:10 GMT) - データセット、プロンプト、翻訳有無など設定が難しいLLMの多言語評価に関する論文。現時点ではコード等が公開されていないが、”We plan to release the MEGA benchmarking code to facilitate this.”にも”We plan to conduct a similar benchmarking of GPT4 in the near future.”にも期待大
- davinci-003の結果は「健闘しているがfine tuningされたSoTAレベルには及ばず」「翻訳を介するtranslate-test が有効」という感じだが、GPT-4でどう変わっているかが気になるところ。
Edit-A-Video
- Edit-A-Video: Single Video Editing with Object-Aware Consistency [21.0]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。 本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。 各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (Thu, 23 Mar 2023 03:04:45 GMT) - テキストによる動画編集。「人間がギターを弾いているビデオ」+「“a bear is playing a guitar”」という入力で、ギターを弾いている人をクマに変更ができる。
- 画像でできたことは動画でもできる、というのはわかるがとても面白い。
- プロジェクトサイトはEdit-A-Video<span>:</span> Single Video Editing with Object-Aware Consistency
Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning
- Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning [16.1]
タスクのセマンティクスは入力から出力までの例のセットやテキストによる命令で表現できる。 コミュニティは、NLPの新しい監視-探索パラダイム、すなわちタスク命令から学ぶことに、ますます関心を払っている。
論文 参考訳(メタデータ) (Tue, 21 Mar 2023 01:27:16 GMT) - PromptのようなInstruction Learningのサーベイ
- 新興分野でもありまた現在の流行の中で重要な要素でもあり、歴史を振り返る上でも参考になる
EVA-02: A Visual Representation for Neon Genesis
- EVA-02: A Visual Representation for Neon Genesis [49.9]
EVA-02はトランスフォーマーをベースとした次世代の視覚表現で、頑丈で堅牢な言語対応の視覚機能を再構築するために事前訓練されている。 モデルサイズは6Mから304Mのパラメータで、4種類のEVA-02が提供されています。
論文 参考訳(メタデータ) (Wed, 22 Mar 2023 14:10:37 GMT) - 非常に規模が大きいわけでもないが強力なVision Transformersの提案。オープンライセンスのモデルが公開されている。
- リポジトリはEVA/EVA-02 at master · baaivision/EVA · GitHub
PANGU-Σ
- PanGu-{\Sigma}: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing [64.5]
PanGu-SigmaはAscend 910 AIプロセッサとMindSporeフレームワークのクラスタでトレーニングされている。 さまざまな中国のNLPダウンストリームタスクのゼロショット学習において、最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (Mon, 20 Mar 2023 03:39:27 GMT) - 1.085T パラメータの非常に大規模な言語モデル
- 学習戦略やデータセット、ベンチマーク結果まで詳細を公開している印象。2600億パラメータのERNIE 3.0 Titanよりも性能が優れており、規模の大きさが効いていそうなことが伺える
GPT-4の話題、Bardの登場
今週もGPT-4関連の話題、論文が多く出ていた。GoogleのBardが出たり「Sign up to try Bard from Google (blog.google)」、CopilotがGPT-4に対応したり「GitHub Copilot X: The AI-powered developer experience | The GitHub Blog」、ChatGPTにPlugin機能が付いたり「ChatGPT plugins (openai.com)」、llama_indexが対応したり「llama_index/ChatGPT_Retrieval_Plugin_Upload.ipynb at main · jerryjliu/llama_index · GitHub」と関連する話題も多かった。
- GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models [0.4]
ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)は、経済的、社会的、政策的な意味を持つ可能性がある。 アメリカの労働力の約80%は、GPTの導入によって影響を受ける仕事の少なくとも10%を担っていた。
論文 参考訳(メタデータ) (Wed, 22 Mar 2023 03:32:25 GMT) - GPT-4による仕事への影響を整理した論文。「影響を受ける=GPT-4により50%以上時間削減が可能」で80%の労働者のタスクの10%に影響というだけでも結構な規模になる。高度な仕事への影響の方が大きいというのも特徴的
- Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。 我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。 我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (Wed, 22 Mar 2023 16:51:28 GMT) - 「Given the breadth and depth of GPT-4’s capabilities, we believe that it could reasonably be viewed as an early (yet still incomplete) version of an artificial general intelligence (AGI) system.」(GPT-4の能力の幅と深さを考えると、人工知能(AGI)システムの初期の(まだ不完全な)バージョンと見なすことができると考えています。 ※FuguMT訳)という衝撃的な記載のある論文。
- ほんまかいな、であり、見方によっては、という注釈も付くわけだが、ひとつ前の論文も含めて社会的インパクトが相当あるのは間違いなさそうではある。
- Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine [39.2]
われわれはChatGPTが推奨するプロンプトを採用して、その翻訳能力をトリガーし、候補のプロンプトが一般的にうまく機能し、性能差が小さいことを確かめる。 ChatGPTは、高リソースのヨーロッパ言語で商用翻訳製品と競合するが、低リソースまたは遠方の言語ではかなり遅れている。 GPT-4エンジンのローンチにより、ChatGPTの翻訳性能は大幅に向上し、遠隔言語でも商用翻訳製品に匹敵するものとなった。
論文 参考訳(メタデータ) (Sun, 19 Mar 2023 11:53:20 GMT) - GPT-4によって機械翻訳品質が商用製品レベルになったとする論文(もともとGPT-3.5までを扱っていた論文のアップデート)
- GPT-3.5、ChatGPTまでであれば商用製品の性能には及んでいなかったが、GPT-4では商用製品レベルに達しているとのこと。個人的に英語→日本語で検証した結果(GPT-4を用いた翻訳の検証(vs GPT-3.5 vs FuguMT) | ぷるーふおぶこんせぷと (staka.jp))も同じ傾向。なかなか衝撃的。
- A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need? [112.1]
生成AI(AIGC、つまりAI生成コンテンツ)は、テキスト、画像、その他を分析、作成する能力により、あらゆる場所で話題を呼んだ。 純粋な分析から創造へと移行するAIの時代において、ChatGPTは最新の言語モデルであるGPT-4とともに、多くのAIGCタスクからなるツールである。 本研究は,テキスト,画像,ビデオ,3Dコンテンツなど,出力タイプに基づいたAIGCタスクの技術的開発に焦点を当てている。
論文 参考訳(メタデータ) (Tue, 21 Mar 2023 10:09:47 GMT) - 生成AI( Generative AI (AIGC, a.k.a AI-generated content) )に関するサーベイ
- 現在の動きを概観するのに良い論文
- Reflexion: an autonomous agent with dynamic memory and self-reflection [0.0]
本稿では,動的メモリと自己回帰機能を備えたエージェントを実現する手法であるReflexionを提案する。 我々は,AlfWorld環境における意思決定タスクを完了させるエージェントの能力と,HotPotQAにおける知識集約型質問応答タスクを評価する。
論文 参考訳(メタデータ) (Mon, 20 Mar 2023 18:08:50 GMT) - LLMを繰り返し使い結果を改善していくReflexionの提案
- 本論文の著者によるHumanEvalでの効果がとても高く驚き(GitHub – noahshinn024/reflexion-human-eval)
- リポジトリはGitHub – noahshinn024/reflexion: Reflexion: an autonomous agent with dynamic memory and self-reflection
その他、arXivではないがGPT-3をマーケティングに使うというUsing GPT for Market Research by James Brand, Ayelet Israeli, Donald Ngwe :: SSRN(GPT-3モデルは,ランダムに選択された顧客であるかのように促されると富と状態依存を伴う価格感度の低下を含む経済理論と整合する多くの行動を示す。GPT-3が生成する製品や特徴に対する支払い意欲の推定は妥当な大きさである。マーケティング目的でGPT-3から情報をクエリする最善の方法に関する予備ガイドラインを提供する。)が面白かった
A Picture is Worth a Thousand Words: Language Models Plan from Pixels
- A Picture is Worth a Thousand Words: Language Models Plan from Pixels [53.9]
計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。 本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
論文 参考訳(メタデータ) (Thu, 16 Mar 2023 02:02:18 GMT) - Visualプロンプトによる計画作成。PLMをうまく使うためソフトプロンプトの形でデータを扱っているよう
- 言語モデルか?という感じの使い方もかなりうまく動く報告が多くて面白い。GPT-4ではマルチモーダル対応でもう少しうまく取り合変えそう(将来的にはTextlessNLPっぽく扱ったりするんだろうか。)