コンテンツへスキップ
- GLIPv2: Unifying Localization and Vision-Language Understanding [161.2]
本稿では,ローカライズタスクとビジョンランゲージ(VL)理解タスクの両方を提供する,基底VL理解モデルGLIPv2を提案する。 GLIPv2は、ローカライゼーション事前トレーニングとビジョン言語事前トレーニングを3つの事前トレーニングタスクで統合する。 一つのGLIPv2モデルが,様々なローカライゼーションおよび理解タスクにおいて,SoTAに近い性能を達成することを示す。
論文 参考訳(メタデータ) (Sun, 12 Jun 2022 20:31:28 GMT)
- Learning Imbalanced Datasets with Maximum Margin Loss [21.3]
クラス不均衡データ学習問題を考慮した学習アルゴリズムとして,最大マージン(MM)を提案する。 我々は、シフトする決定境界を通して有界なマージン一般化を最小化することで、新しい最大マージン損失関数を設計する。
論文 参考訳(メタデータ) (Sat, 11 Jun 2022 00:21:41 GMT)
- The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline Shared Task [90.2]
本稿では,IWSLT 2022オフラインタスクに対するエンドツーエンドYiTrans音声翻訳システムの提案について述べる。 YiTransシステムは、大規模な訓練済みエンコーダデコーダモデル上に構築されている。 最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンド・ツー・エンド・システムにランク付けする。
論文 参考訳(メタデータ) (Sun, 12 Jun 2022 16:13:01 GMT)
- TwiBot-22: Towards Graph-Based Twitter Bot Detection [39.4]
TwiBot-22はグラフベースのTwitterボット検出ベンチマークで、これまでで最大のデータセットを示している。 35の代表的なTwitterボット検出ベースラインを再実装し、TwiBot-22を含む9つのデータセットで評価します。 さらなる研究を容易にするため、実装済みのコードとデータセットをTwiBot-22評価フレームワークに統合する。
論文 参考訳(メタデータ) (Sun, 12 Jun 2022 09:05:30 GMT)
- MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.4]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。 結果は、最先端の3D CNNやビデオトランスフォーマーに匹敵する。
論文 参考訳(メタデータ) (Mon, 13 Jun 2022 16:21:33 GMT)
- SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation [152.6]
ShiFTは、自動運転のための最大規模のマルチタスク合成データセットである。 曇り、雨と霧の強さ、昼の時間、車と歩行者の密度を個別に連続的に変化させる。 私たちのデータセットとベンチマークツールキットはwww.vis.xyz/shift.comで公開されています。
論文 参考訳(メタデータ) (Thu, 16 Jun 2022 17:59:52 GMT)- 自動運転のための大規模合成データセット。気象条件、時刻、車両・歩行者の密度、カメラの向きといった変化に対応できるか検証可能な構成となっている。合成データではあるが、ドメイン間の性能差異は実環境のデータセットと同様であるとのこと。
- プロジェクトサイトはSHIFT Dataset (vis.xyz)、ライセンスは CC BY-SA 4.0
- APT-36K: A Large-scale Benchmark for Animal Pose Estimation and Tracking [77.9]
APT-36Kは動物のポーズ推定と追跡のための最初の大規模ベンチマークである。 このビデオは、30種の動物から収集・フィルタリングされた2,400のビデオクリップと、各ビデオの15フレームで構成されており、合計で36,000フレームとなっている。 我々は,(1)ドメイン内およびドメイン間移動学習環境下での単一フレームでの動物ポーズ推定,(2)未確認動物に対する種間ドメイン一般化テスト,(3)動物追跡による動物ポーズ推定の3つのモデルについて,いくつかの代表的モデルをベンチマークした。
論文 参考訳(メタデータ) (Sun, 12 Jun 2022 07:18:36 GMT)
- Measuring the Carbon Intensity of AI in Cloud Instances [91.3]
我々は,ソフトウェアの炭素強度を測定するための枠組みを提供し,運転中の炭素排出量を測定することを提案する。 私たちは、Microsoft Azureクラウドコンピューティングプラットフォームにおける排出削減のための一連のアプローチを評価します。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 10 Jun 2022 17:04:04 GMT)
- NatGen: Generative pre-training by “Naturalizing” source code [18.4]
我々は,ソースコードの「成熟化」という新たな事前学習目標を提案する。 自然言語とは異なり、コードのバイモーダルでデュアルチャネルの性質により、意味論的に等価なコードを大規模に生成することができます。 私たちは、CodeT5に匹敵する最先端のパフォーマンスを達成するために、3つの生成ソフトウェアエンジニアリングタスクでモデルを微調整します。
論文 参考訳(メタデータ) (Wed, 15 Jun 2022 15:08:29 GMT)
- Emergent Abilities of Large Language Models [172.1]
より小さなモデルには存在しないが、より大きなモデルには存在しない場合、創発する能力を考える。 このような出現の存在は、さらなるスケーリングが言語モデルの機能範囲をさらに拡大することを意味している。
論文 参考訳(メタデータ) (Wed, 15 Jun 2022 17:32:01 GMT)- 近年の巨大言語モデルはパラメータ数増加により性能が上がることが知られている。その中で一定のパラメータ数を超えた時に劇的な性能向上がみられる事例を扱った論文。これらは「Emergent abilities would not have been directly predicted by extrapolating a scaling law (i.e. consistent performance improvements) from small-scale models.」とのことで予測することが難しい。
- 論文で挙げられている実例、Beyond the Imitation Game benchmark (BIG-bench) – arXiv最新論文の紹介 (devneko.jp)を合わせて考えるとやはり総合的に人間の能力を抜くようなモデルは意外に早くできてしまうのかもしれない。