- EASE: Entity-Aware Contrastive Learning of Sentence Embedding [37.7]
EASEは文とその関連エンティティ間の対照的な学習を通して文の埋め込みを学習する新しい方法である。 EASEは英語のセマンティックテキスト類似性(STS)と短いテキストクラスタリング(STC)タスクにおいて、競合的あるいはより良いパフォーマンスを示す。
論文 参考訳(メタデータ) (Mon, 9 May 2022 13:22:44 GMT)- エンティティ情報を活用した文の分散表現化。マルチリンガル設定を含むSTC/STSで優れた性能を達成とのこと。
- リポジトリはGitHub – studio-ousia/ease
月: 2022年5月
音声キャプショニングのサーベイ
- Automated Audio Captioning: an Overview of Recent Progress and New Challenges [57.0]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。 本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文 参考訳(メタデータ) (Thu, 12 May 2022 08:36:35 GMT)- Audio Captioningのサーベイ。とても大事なタスクである一方でimage captioningやvideo captioningに比べて歴史が浅い(2017~)というのに驚いた。
日本語特化CLIP
rinna社、日本語に特化した言語画像モデルCLIPを公開|rinna株式会社のプレスリリース (prtimes.jp)というニュースがあった。
rinnaによる日本語版CLIPと日本語版 CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP (fugumt.com)で、Apache-2ライセンスでの公開。重要なモデルをOSSで公開いただけるのは非常にありがたい。
リポジトリはrinna/japanese-clip-vit-b-16 · Hugging Face、rinna/japanese-cloob-vit-b-16 · Hugging Face。
CiteSum: 論文のTLDR要約
- CiteSum: Citation Text-guided Scientific Extreme Summarization and Low-resource Domain Adaptation [41.5]
我々は、人間のアノテーションを使わずに新しいベンチマークCiteSumを作成し、これは前回の人間計算データセットSciTLDRの約30倍の大きさである。 科学的極端の要約では、CITESは微調整なしでSciTLDR上で完全に制御された手法よりも優れている。 ニュースの極端な要約では、CITESはベースモデルよりもXSumに大きな利益を得ている。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 12 May 2022 16:44:19 GMT)- 論文のTLDR要約のデータセットとモデルの提案。引用として記載された文が引用元論文の高品質な要約となっていることに着目して作成されたデータセットととのこと。このデータで事前学習したモデルはニュースなど他ドメインへの転送においても有効とのこと。
- リポジトリはGitHub – morningmoni/CiteSum: Dataset and Code for paper “CiteSum: Citation Text-guided Scientific Extreme Summarization and Low-resource Domain Adaptation”
Gato: 汎用エージェント
- A Generalist Agent [89.9]
Gatoはマルチモーダル、マルチタスク、マルチエンボディメントのジェネリストポリシーである。 同じ重さのネットワークでも、Atariやキャプション画像、チャット、本物のロボットアームのスタックブロックなどをプレイできる。
論文 参考訳(メタデータ) (Thu, 12 May 2022 16:03:26 GMT)- DeepMindから発表された汎用的にタスクを解けるモデル。テキストだけでなく画像や関節のトルクといったデータもシーケンスとして扱って大規模言語モデルっぽい処理を行っている。
- 「 Transformer sequence models are effective as multi-task multi-embodiment policies, including for real-world text, vision and robotics tasks.」ということで改めてTransformerの強力さが分かる。
Deep Learningによるソースコード理解のサーベイ
- A Survey of Deep Learning Models for Structural Code Understanding [21.7]
本稿では,コードデータから形成される構造について概観する。 近年のコード理解モデルは,シーケンスベースモデルとグラフベースモデルという2つのグループに分類されている。 メトリクスやデータセット、下流タスクも導入しています。
論文 参考訳(メタデータ) (Tue, 3 May 2022 03:56:17 GMT)- ソースコード分析へのDeepLearning活用についての幅広いサーベイ。
合成データ活用に関するサーベイ
- Synthetic Data — what, why and how? [30.4]
本資料は, 合成データ技術の現状を概観することを目的としている。 この記事は技術的でない聴衆を対象としているが、専門家に明確性を提供するための正式な定義がいくつか与えられている。
論文 参考訳(メタデータ) (Fri, 6 May 2022 14:27:45 GMT)- 合成データに関するサーベイ、主な観点としてprivate data release 、data de-biasing and fairness、data augmentation for robustnessを挙げ、関連領域(攻撃や防御など)についても記載がある。
ElitePLM: PLMの能力評価
- ElitePLM: An Empirical Study on General Language Ability Evaluation of Pretrained Language Models [78.1]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。 実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (Tue, 3 May 2022 14:18:10 GMT)- Pretrained Language Modelの詳細評価。PLMといっても事前学習の内容やデータ、モデルサイズなど多種多様でそれがどのような能力を持つか(何に適しているか)参考になる。
- リポジトリはGitHub – RUCAIBox/ElitePLM
Polyglot Prompt:マルチリンガル、マルチタスクなプロンプト
- Polyglot Prompt: Multilingual Multitask PrompTraining [35.7]
異なる言語から異なるタスクを(タスク/言語固有のモジュールを使わずに)モノリシックなフレームワークでモデル化できるだろうか? 学習フレームワークであるPolyglot Promptを開発し、適切な多言語プロンプトエンジニアリングの後、異なる言語やタスクの統一的な意味空間を学習するためのプロンプト手法を導入する。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 29 Apr 2022 17:40:50 GMT)- 英語を対象とすることが多いprompt系のモデルをマルチリンガルで、という報告。
- Cross-lingual zero-shot transferが一定程度可能そうなのが興味深い。また、「(1) Could different languages benefit from each other by a monolithic framework?」「Yes」や「(2) Why does PolyPrompt work?」「The performance improvement of PolyPrompt mainly comes from the languages of non-Indo-European language families」という議論も面白い。日本語を扱う場合も重要だと思う。
- リポジトリはGitHub – jinlanfu/Polyglot_Prompt、(実態はDataLabs)
Are All the Datasets in Benchmark Necessary?
- Are All the Datasets in Benchmark Necessary? A Pilot Study of Dataset Evaluation for Text Classification [39.0]
本稿では,ベンチマーク中のデータセットがすべて必要かどうかについて検討する。 9つのデータセットと36のシステムでの実験では、いくつかの既存のベンチマークデータセットはトップスコアシステムの識別にはほとんど寄与していない。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 4 May 2022 15:33:00 GMT)- データセットによってモデルの識別能力に差があり、いくつかのデータセットは能力の高いモデル識別に寄与していないとの報告。
- 感覚的には自明であり「難しいデータセット」と呼んでいたものはあったが、改めて整理される重要な特性であることが分かる。