AutoMLの実際

  • AutoML in The Wild: Obstacles, Workarounds, and Expectations [34.7]
    本研究は,現実の実践においてユーザが遭遇するAutoMLの限界を理解することに焦点を当てる。 その結果,カスタマイズ性,透明性,プライバシーから生じる3つの大きな課題を克服するために,ユーザエージェンシーを積極的に実施していることが判明した。
    論文  参考訳(メタデータ)   (Tue, 21 Feb 2023 17:06:46 GMT)
  • AutoMLの実践(課題と対策)についてインタビュー(19人)から整理した論文
  • 実践者に対するインタビューはとても参考になるのと「AutoMLの不備については良く知りつつ実用的に対応している」という点がやや驚きだった。使えそうであれば様々な方法で克服していけるのであれば最近の対話系モデルもどうにかして実用していけるのかもと思わなくもない。

信頼できるAIとCausality

  • A Review of the Role of Causality in Developing Trustworthy AI Systems [16.3]
    最先端のAIモデルは、現実世界の人間の理解を支配する因果関係の理解がほとんどない。 近年,AIモデルの信頼性を向上するための強力なツールとして因果モデリングや推論手法が登場している。
    論文  参考訳(メタデータ)   (Tue, 14 Feb 2023 11:08:26 GMT)
  • Trustworthy AIに対する因果推論や因果モデリングの役割を整理したサーベイ
  • Interpretability、Fairness、Robustness、Privacy、Safety and Accountability(Auditing)に対する因果性の効果が整理されている

機械翻訳におけるScaling Law

  • Scaling Laws for Multilingual Neural Machine Translation [45.6]
    モデルサイズの増加がモデル性能に与える影響について検討し,スケーリング行動におけるトレーニング混合物組成の役割について検討した。 学習混合物中の個々の言語ペアの重み付けの変化は,スケーリング法則の乗法的要因にのみ影響することがわかった。 我々は、どんな言語重み付けでも訓練された多言語モデルの性能を予測するために、我々の観測を活用している。
    論文  参考訳(メタデータ)   (Sun, 19 Feb 2023 18:43:24 GMT)
  • マルチリンガルな機械翻訳におけるScaling Lawの検証結果。興味深い結果が多いが近しい言語のマルチリンガル翻訳は効果が大きいという説に対して「(En→{De, Fr})への翻訳を訓練したモデルと、非関連言語(En→{De, Zh})で訓練したモデルのスケーリング挙動に有意な差はみられない。」という結果は面白い。
  • staka/takomt · Hugging Faceとか個人でやるには結構大変で当面はJA⇔ENに注力しようと思っているがとても面白い論文。

対話システムにおけるSafe, Rensponsible, Moralのサーベイ

  • Recent Advances towards Safe, Responsible, and Moral Dialogue Systems: A Survey [51.8]
    安全・責任・モダル対話システム構築に向けた研究範囲の新たな視点を提示する。 本稿では,1)虐待的・有害な内容,2)不公平・差別,3)倫理的・道徳的問題,および4)誤認・プライバシー情報のリスクについて論じる。
    論文  参考訳(メタデータ)   (Sat, 18 Feb 2023 09:32:55 GMT)
  • 最近話題の対話システムに対して社会実装上避けては通れない要素のサーベイ
  • 5章のトレンドも参考になる
    • 1) explainable safety monitoring
    • 2) continuous learning of safety issues
    • 3) robustness against malicious attacks
    • 4) multimodal information processing
    • 5) unified research framework
    • 6) multidisciplinary theory integration

RealFusion: 360

  • RealFusion: 360{\deg} Reconstruction of Any Object from a Single Image [98.5]
    対象物の全360度写真モデルを1枚の画像から再構成する際の問題点を考察する。 我々は拡散に基づく自己条件付き画像生成装置を取り、オブジェクトの新たなビューを夢見るように促すプロンプトを設計する。
    論文  参考訳(メタデータ)   (Tue, 21 Feb 2023 13:25:35 GMT)
  • 1枚の画像から360度の写真モデルを再構成、デモが凄い
  • 2次元の学習済みDiffusion Modelを知識源として使っており、パイプライン構成が想像して作る人間っぽいと思ってしまった
  • リポジトリはRealFusion: 360° Reconstruction of Any Object from a Single Image (lukemelas.github.io)

VoxFormer

  • VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion [129.6]
    VoxFormerはTransformerベースのセマンティックシーン補完フレームワークである。 2D画像のみから完全な3Dセマンティクスを出力できる。 幾何学では20.0%、意味論では18.1%の相対的な改善で芸術の状態を上回ります。
    論文  参考訳(メタデータ)   (Thu, 23 Feb 2023 18:59:36 GMT)
  • ボクセルが扱えるTransformer、一枚の画像から3次元形状の予測が可能で見えない部分についても一定の予測ができいるように見える。
  • リポジトリはGitHub – NVlabs/VoxFormer: A Cutting-edge Baseline for 3D Semantic Occupancy Prediction

Deep Anomaly Detection under Labeling Budget Constraints 

  • Deep Anomaly Detection under Labeling Budget Constraints [37.0]
    予算制約の下で最適なデータカバレッジを持つデータラベリング戦略を提案する。 また,半教師付き異常検出のための新しい学習フレームワークを提案する。
    論文  参考訳(メタデータ)   (Wed, 15 Feb 2023 18:18:35 GMT)
  • 予算制約がある中での異常検知手法としてSOEL(Semi-supervised outlier exposure with limited labeling budget)を提案

Prompt Injection

  • More than you’ve asked for: A Comprehensive Analysis of Novel Prompt Injection Threats to Application-Integrated Large Language Models [64.7]
    検索とAPI呼び出し機能を備えた大規模言語モデルの拡張は、全く新しい攻撃ベクトルを誘導することを示す。 これらのLSMは、敵によって事前に注入され選択された悪意のあるプロンプトを含むWebから検索された有毒なコンテンツを処理する。
    論文  参考訳(メタデータ)   (Thu, 23 Feb 2023 17:14:38 GMT)
  • プロンプトインジェクションに関する論文、指摘されている通りApplication-Integrated LLMでは大きな脅威になりうる(そして対策も難しい)。この論文では信頼できない外部ソースを取りに行かせるタイプの攻撃をIndirect Prompt Injectionと呼んでおり、Bingの新機能のようにデータを取得しに行くタイプのLLMでは問題になりそう(もちろん、将来ToolformerのようにAPIを呼びに行くようなAIではさらに問題が大きい)
  • 下記のようにうまくプロンプトを作ろうとする方向性もあれば、攻撃できないかという方向性もあり、研究は様々だと思う。(解析的に明らかにしにくい分野でもあり多方面からの研究は非常に重要だとも思う)
  • Prompting GPT-3 To Be Reliable [117.2]
    この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
    論文  参考訳(メタデータ)   (Mon, 17 Oct 2022 14:52:39 GMT)
  • GitHub – NoviScl/GPT3-Reliability

LLaMA

Introducing LLaMA: A foundational,65-billion-parameter large languagemodel
LLaMAは、研究者がAIのこのサブフィールドで研究を進めるのを助けるために設計された基礎的な大きな言語モデルである。ファンデーションモデルはラベルのない大量のデータをトレーニングするので、さまざまなタスクの微調整に理想的です。

フリーの大規模言語モデルで65BパラメータでGPT-3 (175B)を上回りPaLM(540B)に匹敵とのこと。オープンなモデルではあるがNon-Commercial用途のよう。

GPU-hourの比較が載っているがLLaMA(7B)で82432、LLaMA(65B)は1022362、p4d.24xlargeのオンデマンド価格(8 GPU hour)が32.77 USD、4500円くらいなので、7Bで良ければ5000万円くらいでトレーニングできる(オンデマンドでやる人はいないはずで実態はもっと安いだろうけど…)

主要なデータが英語のEnglish CommonCrawl [67%]、WikipediaとBooksデータは bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, ukを使用とのことで日本語の性能は期待できなさそう。(他例を見るとそれなりに使えたりもするかもしれないが・・・)

LLaMA: Open and Efficient Foundation Language Models – Meta Research (facebook.com)

GitHub – facebookresearch/llama: Inference code for LLaMA models

週間ChatGPT

先週もChatGPTの話題は多かった。

  • ChatGPT: Jack of all trades, master of none [4.7]
    OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースした。 25種類のNLPタスクにおけるChatGPTの機能について検討した。 本研究は,最近の予測型NLPモデルの高品質化が,ツールの社会への有用性を示すかどうか,基本的な議論の基盤となるものである。
    論文  参考訳(メタデータ)   (Tue, 21 Feb 2023 15:20:37 GMT)
  • ChatGPTのタスク別の性能
  • 概ね他の結果と同じだが、「It also provides a unique selfexplanation capability that facilitates human understanding and adaptation to the expected outcome.」という記載は特徴的。それはexplanationなのかという疑問はあるが…。
  • A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT [0.0]
    BERT、GPT-3、MAE、DALLE-E、ChatGPTといった事前訓練された基礎モデルは、大規模データに基づいて訓練される。 PFMの驚異的な成功により、AIはここ数年、さまざまな分野に波を広げてきた。
    論文  参考訳(メタデータ)   (Sat, 18 Feb 2023 20:51:09 GMT)
  • BERTからChatGPTに至るまで最近のPretrained Foundation Models (PFMs) に関する大規模なサーベイ
  • How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation [16.9]
    GPTモデルは高資源言語に対して非常に競争力のある翻訳品質を実現する。 また、GPTモデルと他の翻訳システムを組み合わせたハイブリッドアプローチにより、翻訳品質をさらに向上できることを示す。
    論文  参考訳(メタデータ)   (Sat, 18 Feb 2023 02:11:36 GMT)
  • GPTを用いた機械翻訳、高リソースな言語に対しては非常に強力な性能でMS Translatorと拮抗しているように見える
  • 通常の機械翻訳モデルとの組み合わせも有効とのことで、通常のNMTとは似て非なるシステムになっているようにも感じた。その理由は定かではないが、文脈を読みその後を出力することが本業のGPT系モデルと(MS Translatorの実装にもよるが)単文翻訳から進化し文脈考慮は後で進化したNMTの違いだったりすると面白いなと思う。
  • Dictionary-based Phrase-level Prompting of Large Language Models for Machine Translation [91.6]
    大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。 LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。 LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
    論文  参考訳(メタデータ)   (Wed, 15 Feb 2023 18:46:42 GMT)
  • LLMによる機械翻訳では辞書の併用に効果があるとする報告
  • 確かに効果はあるのだろうがどのように使いやすくしていくかという点が悩ましい
  • Zero-Shot Information Extraction via Chatting with ChatGPT [56.8]
    ゼロショット情報抽出(IE)は、注釈のないテキストからIEシステムを構築することを目的としている。 大規模言語モデル(LLMs、GPT-3、ChatGPT)に対する最近の取り組みは、ゼロショット設定での有望なパフォーマンスを示している。 ゼロショットIEタスクを2段階フレームワーク(ChatIE)でマルチターン質問応答問題に変換する。
    論文  参考訳(メタデータ)   (Mon, 20 Feb 2023 12:57:12 GMT)
  • ゼロショットでの知識抽出タスクへのChatGPTの応用
  • 2段階のフレームワークとすることで性能が上がったとのこと。このあたり使い方でカバーしていくのが最近という気がする
  • リポジトリはhttps://github.com/cocacola-lab/ChatIEとのことだが、現時点では404、https://github.com/cocacola-lab/GPT4IEはtext-davinci-003を使っているよう?
  • Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT [103.6]
    チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。 そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。 2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
    論文  参考訳(メタデータ)   (Sun, 19 Feb 2023 12:29:33 GMT)
  • BERT / RoBERTa vs ChatGPTをGLUEで検証、タスクによって結果は様々でChatGPTは推論系タスクでは高い性能を発揮する一方でparaphrase 、similarity tasksが弱いとのこと。平均値ではBERT-baseレベルに若干足りない程度でRoBERTや-largeモデルには負けている感じ。これを高いとみるか低いとみるかは感覚が分かれるだろうが、fine tuningがいらない使いやすさを考えると高い性能と受け止める人が多そうな気がする。
  • On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective [33.3]
    本研究は,ChatGPTの強靭性について,敵対的視点とアウト・オブ・ディストリビューションOODの観点から評価する。 以上の結果から,ChatGPTは敵対的・OOD分類タスクにおいて一貫した優位性を示すものではないことが示唆された。 ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
    論文  参考訳(メタデータ)   (Wed, 22 Feb 2023 11:01:20 GMT)
  • ChatGPTをRobustnessの観点で検証、Microsoftの論文
  • GPT-3, GPT-3.5, ChatGPTともにRobustnessさが優れているとの検証結果で機械翻訳ではGPT-Xが有利、adversarial classificationではChatGPTが有利という結果になっている
  • データセット構築の狙いなど考慮点は多そうではあるが、大規模言語モデルの方が堅牢というのはありそうな結果だと思う