APT-36K: 動物のポーズ推定・追跡データセット

  • APT-36K: A Large-scale Benchmark for Animal Pose Estimation and Tracking [77.9]
    APT-36Kは動物のポーズ推定と追跡のための最初の大規模ベンチマークである。 このビデオは、30種の動物から収集・フィルタリングされた2,400のビデオクリップと、各ビデオの15フレームで構成されており、合計で36,000フレームとなっている。 我々は,(1)ドメイン内およびドメイン間移動学習環境下での単一フレームでの動物ポーズ推定,(2)未確認動物に対する種間ドメイン一般化テスト,(3)動物追跡による動物ポーズ推定の3つのモデルについて,いくつかの代表的モデルをベンチマークした。
    論文  参考訳(メタデータ)   (Sun, 12 Jun 2022 07:18:36 GMT)
    • 動物のポーズ推定だけでなく追跡にも焦点を当てたデータセット。
    • リポジトリはhttps://github.com/pandorgan/APT-36Kとのことだが、現時点では404

AIとクラウド環境と炭素排出

  • Measuring the Carbon Intensity of AI in Cloud Instances [91.3]
    我々は,ソフトウェアの炭素強度を測定するための枠組みを提供し,運転中の炭素排出量を測定することを提案する。 私たちは、Microsoft Azureクラウドコンピューティングプラットフォームにおける排出削減のための一連のアプローチを評価します。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 10 Jun 2022 17:04:04 GMT)
    • AI構築(と利用)におけるエネルギーの利用やCO2の排出は最近よく話題になる。そのようなテーマに対して整理し環境負荷を下げる方法をサジェストしている論文。
    • 本論文とは別件だが、Machine Learning CO2 Impact Calculator (mlco2.github.io)というサイトがあるくらい重要な話題になっている。

ソースコードのNaturalizing

  • NatGen: Generative pre-training by “Naturalizing” source code [18.4]
    我々は,ソースコードの「成熟化」という新たな事前学習目標を提案する。 自然言語とは異なり、コードのバイモーダルでデュアルチャネルの性質により、意味論的に等価なコードを大規模に生成することができます。 私たちは、CodeT5に匹敵する最先端のパフォーマンスを達成するために、3つの生成ソフトウェアエンジニアリングタスクでモデルを微調整します。
    論文  参考訳(メタデータ)   (Wed, 15 Jun 2022 15:08:29 GMT)
    • ソースコードを同等でより自然なスタイルに変換するよう事前学習することでCodeT5より優れた結果を達成とのこと。
      • 汚いコードを綺麗にしてくれるようなモデルを作るときにも役立ちそうで非常に面白い。
    • リポジトリはGitHub – natgen-team/NatGen

大規模言語モデルの創発的能力

  • Emergent Abilities of Large Language Models [172.1]
    より小さなモデルには存在しないが、より大きなモデルには存在しない場合、創発する能力を考える。 このような出現の存在は、さらなるスケーリングが言語モデルの機能範囲をさらに拡大することを意味している。
    論文  参考訳(メタデータ)   (Wed, 15 Jun 2022 17:32:01 GMT)
    • 近年の巨大言語モデルはパラメータ数増加により性能が上がることが知られている。その中で一定のパラメータ数を超えた時に劇的な性能向上がみられる事例を扱った論文。これらは「Emergent abilities would not have been directly predicted by extrapolating a scaling law (i.e. consistent performance improvements) from small-scale models.」とのことで予測することが難しい。
    • 論文で挙げられている実例、Beyond the Imitation Game benchmark (BIG-bench) – arXiv最新論文の紹介 (devneko.jp)を合わせて考えるとやはり総合的に人間の能力を抜くようなモデルは意外に早くできてしまうのかもしれない。

META LM: Language Models are General-Purpose Interfaces

  • Language Models are General-Purpose Interfaces [109.5]
    本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。 事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
    論文  参考訳(メタデータ)   (Mon, 13 Jun 2022 17:34:22 GMT)
    • マルチモーダル、マルチタスクに対応した言語モデルの提案。言語、画像のタスクで優れた性能を達成とのこと。エンコーダ部分でマルチモーダルに対応、実際タスクを「解く」のはsemi-causal language modelというデコーダのよう。この構造を汎用目的インタフェースといっている。
      • タスクに関する記述や出力は自然言語として書け、マルチモーダルな構造とも接続できるのであれば汎用インタフェースと言える気はする。そして、semi-causal language modelingというのは刺激的なワード。
    • リポジトリはGitHub – microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities

GAN I hire you?

  • “GAN I hire you?” — A System for Personalized Virtual Job Interview Training [49.2]
    本研究では,GAN(Generative Adversarial Network)に基づく対話型面接訓練システムを開発した。 その結果,GANをベースとした行動フィードバックが有用であることが示唆された。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 8 Jun 2022 13:03:39 GMT)
    • GANを用いた対話型面接トレーニングシステム、フィードバックを生成してくれるとのこと。
    • 取り組みは面白いが、評価方法とかこれで大丈夫なのだろうか。

アノテーションエラー検出手法の検証

  • Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future [64.0]
    我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。 アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。 私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
    論文  参考訳(メタデータ)   (Sun, 5 Jun 2022 22:31:45 GMT)

DEMSD(Deep Encoder with Multiple Shallow Decoders )を使った多言語機械翻訳

  • Multilingual Neural Machine Translation with Deep Encoder and Multiple Shallow Decoders [77.2]
    本稿では,複数の浅層デコーダ(DEMSD)を持つディープエンコーダを提案する。 2層デコーダを用いたDEMDモデルは、翻訳品質の低下のない標準トランスモデルと比較して平均1.8倍の高速化が得られる。
    論文  参考訳(メタデータ)   (Sun, 5 Jun 2022 01:15:04 GMT)
    • 機械翻訳では深いエンコーダと浅いデコーダの組み合わせが有効である。この論文では多対1の機械翻訳での有効性の検証、多対多機械翻訳の場合の対応を報告している。多対多機械翻訳ではデコーダ部分を複数の浅い構造とすることで翻訳性能と速度で良好な結果が出せたとのこと。

多言語のdetoxification

  • Exploring Cross-lingual Textual Style Transfer with Large Multilingual Language Models [78.1]
    デトキシフィケーション(detoxification)とは、本来の有毒なテキストの意味と流布を保ちつつ、丁寧なスタイルでテキストを生成するタスクである。 本研究は多言語間の解毒と,このような大規模多言語モデルの挙動について検討する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Sun, 5 Jun 2022 20:02:30 GMT)
    • 多言語でのdetoxificationに関する報告。
    • 英語でdetoxificationを学習した多言語モデルがロシア語のdetoxificationに有効か興味があったが難しそうという実験結果。「We suggest that the reason for this is not a lack of data, but the model’s inability to capture the pattern between toxic and non-toxic text and transfer it to another language by itself.」とのこと。
    • 翻訳を通す手法はまぁまぁワークするよう。ある程度想像はできるとはいえ、Backtranslation Setupの詳細が知りたい……

DiVeRSe: Diverse Verifier on Reasoning Step

  • On the Advance of Making Language Models Better Reasoners [49.2]
    GPT-3 や PaLM のような大規模言語モデルは、数発の学習で顕著な性能を示した。 最近の進歩は、最終回答を生成する前に、言語モデルを意図的に導き、推論ステップの連鎖を生成する。 推論能力をさらに向上するための新しいアプローチであるDiVeRSeを提案する。
    論文  参考訳(メタデータ)   (Mon, 6 Jun 2022 03:38:36 GMT)
    • 多段階推論パスを用いてGSM8Kのようなタスクでの性能が改善するが、それをさらに推し進めた研究。多段階推論に加えて「言語モデルからより多様な推論経路を誘導する多様なプロンプトを活用」「複数の推論経路から最終的な答えを引き出す投票検証モデルの利用」「ステップ毎の正しさを利用した投票検証モデルの強化」を行っているとのこと。