Data Distillationのサーベイ

  • Data Distillation: A Survey [8.5]
    ディープラーニングは、膨大な数の大規模および多言語データセットのキュレーションにつながった。 個々のタスクで人間に近いパフォーマンスを持つにもかかわらず、大規模なデータセットでパラメータハングリーモデルをトレーニングすることは、多面的な問題を引き起こす。 データ蒸留アプローチは、元のデータセットの効果的なドロップイン置換として機能する、簡潔なデータ要約を合成することを目的としている。
    論文  参考訳(メタデータ)   (Wed, 11 Jan 2023 02:25:10 GMT)

AI Maintenance: A Robustness Perspective 

  • AI Maintenance: A Robustness Perspective [91.3]
    我々は、AIライフサイクルにおけるロバストネスの課題を強調し、自動車のメンテナンスに類似させることで、AIのメンテナンスを動機付ける。 本稿では,ロバストネスリスクの検出と軽減を目的としたAIモデル検査フレームワークを提案する。 我々のAIメンテナンスの提案は、AIライフサイクル全体を通して堅牢性評価、状態追跡、リスクスキャン、モデル硬化、規制を促進する。
    論文  参考訳(メタデータ)   (Sun, 8 Jan 2023 15:02:38 GMT)
  • AIメンテナンスに関するフレームワークの提案。妥当・合理的かは議論が分かれると思うが、頭の整理をするには有用。

Graphix-T5

  • Graphix-T5: Mixing Pre-Trained Transformers with Graph-Aware Layers for Text-to-SQL Parsing [56.2]
    テキストからテキストへのパースにおける大きな課題の1つはドメインの一般化である。我々は,グラフ認識層によって拡張された標準事前学習トランスフォーマモデルを用いた混合モデルであるgraphix-t5を提案する。 大規模な実験と分析により、SPIDER、Syn、REALISTIC、DKの4つのテキスト-SQLベンチマークにおける GraphIX-T5の有効性が示されている。
    論文  参考訳(メタデータ)   (Wed, 18 Jan 2023 13:29:05 GMT)
  • グラフ構造(としてER)を扱うことによってテキストからのSQL生成の性能を向上させたとの報告。この手のSQL生成支援機能が実装される例が増えてきており興味深い
  • リポジトリはDAMO-ConvAI/graphix at main · AlibabaResearch/DAMO-ConvAI · GitHubとのこと。現時点ではcoming soon

Synthcity

LinkGAN

テキスト分類に何を使うか?(GPT-3? T5? ロジスティック回帰?)

  • Which Model Shall I Choose? Cost/Quality Trade-offs for Text Classification Tasks [40.1]
    本稿では,テキスト分類タスクに着目し,この課題の定量的分析を行う。 分類精度を主指標として,様々なモデルの分類器の性能を評価する。 次に、推論に必要なサンプルが多数存在するような状況におけるモデル選択について議論する。
    論文  参考訳(メタデータ)   (Tue, 17 Jan 2023 16:51:58 GMT)
  • テキスト分類を対象に、コスト・分類性能の観点からどのようなアプローチをとるべきか比較した論文。ざっくりとはGPT-3を使ってアノテーションコストをかけないのが良いのか、T5を使ってアノテーションコストを抑えつつトレーニングコストをかけるのが良いのか、ロジスティク回帰を使ってアノテーションを多めにしながらもトレーニングコストを抑えるのが良いのかを比較するものとなっている。
  • アノテーションコスト、トレーニングコスト、インファレンスコスト、性能を比較しているのは面白い。
  • (結局は目的次第ではありつつ)現時点では総合的にBERTやT5が有用そうな結果ではあるが、インファレンスが少ないならGPT-3も優秀で今後に期待が持てそうな気はする。

 HC3 (Human ChatGPT Comparison Corpus) dataset

  • How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection [8.1]
    ChatGPTは、幅広い人間の質問に効果的に反応できる。 人々はChatGPTのような大きな言語モデル(LLM)が社会に与える影響を心配し始めています。 本研究では,人間の専門家とChatGPTの双方から,数万件の比較回答を収集した。
    論文  参考訳(メタデータ)   (Wed, 18 Jan 2023 15:23:25 GMT)
  • ChatGPTの回答と人の回答を比べるためのデータセット。データ件数は約4万件、言語は英語と中国語。短期間でよく作ったなと思う内容。RoBERTaを使えばChatGPTで作ったコンテンツの検出はできそうに見えるが、今後もそうかは謎。
  • 本論には関係ないところで「金融や心理学分野ではChatGPTの回答の方が人の回答より役に立つと判定されたが医療分野では全く逆」、その理由が「医療分野でのChatGPTの回答は長く直接的でない傾向にあるため(と思われる)」という点が面白かった…それと「ChatGPT may fabricate facts.」もですよねーという感想
  • リポジトリはGitHub – Hello-SimpleAI/chatgpt-comparison-detection: Human ChatGPT Comparison Corpus (HC3), Detectors, and more! 🔥

MAQA: A Multimodal QA Benchmark for Negation

  • MAQA: A Multimodal QA Benchmark for Negation [12.1]
    マルチモーダル学習は、事前学習された大規模言語モデル(LLM)の表現力の恩恵を受けることができる 本稿では,AudioSetのラベル付き音楽ビデオから適応したマルチモーダル質問応答(QA)ベンチマークを提案する。 モデルサイズに関わらず,マルチモーダル変圧器の標準的な微調整手法では,否定を正しく解釈することができないことを示す。
    論文  参考訳(メタデータ)   (Mon, 9 Jan 2023 10:11:23 GMT)
  • 現状のモデルが苦手とする否定表現に対応するためのタスク拡張手法の提案。テンプレートベースのタスク拡張に比べてPaLMを利用した場合のほうが性能が良く、大規模言語モデルを併用した戦略は良く機能するよう。
  • 構築したデータセットは公開予定とのこと

SlideVQA

  • SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images [10.2]
    52k以上のスライド画像と14.5kのスライドデッキに関する質問からなる2.6k以上のスライドデッキを含む,新しいマルチイメージ文書VQAデータセットであるSlideVQAを提案する。 我々は、証拠選択と質問応答を統一的なシーケンス・ツー・シーケンス形式で扱う、新しいエンドツーエンド文書VQAモデルを開発した。
    論文  参考訳(メタデータ)   (Thu, 12 Jan 2023 09:00:42 GMT)
  • スライド画像をベースとしたVQAデータセット。NTTからの発表。
  • リポジトリはGitHub – nttmdlab-nlp/SlideVQA: SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images (AAAI2023)
  • 評価を目的した公開のようで、利用にあたってはSlideVQA/LICENSE at main · nttmdlab-nlp/SlideVQA · GitHubを十分に確認・理解する必要がある。
    • 3.の「and provide written verification of such destruction to NTT.」は求められたらでよいのだろうか…?(なかなかダウンロードしづらい記載だと思うので、READMEにLICENSEの概要を明記してほしいところ)

Scaling Laws for Generative Mixed-Modal Language Models

  • Scaling Laws for Generative Mixed-Modal Language Models [103.3]
    個別のモダリティの貢献とそれら間の相互作用を統一する混合モードスケーリング法則について報告する。 具体的には、過去のユニモーダルスケーリング法則に対する加算項として、データとモデルサイズによる最適シナジーと競合を明示的にモデル化する。 また,訓練中に観察される4つの経験的現象,例えば,自然にモダリティを交互に交互に行う創発的コーディネート・アセット・スタイル・トレーニングを見出した。
    論文  参考訳(メタデータ)   (Tue, 10 Jan 2023 00:20:06 GMT)