arXiv最新論文の紹介

ELECRec: Sequential Recommenders

ELECRec: Training Sequential Recommenders as Discriminators [94.9]
シーケンシャルレコメンデーションは、しばしば生成タスク、すなわち、ユーザの関心事の次の項目を生成するためにシーケンシャルエンコーダを訓練すると考えられる。我々は、ジェネレータではなく、識別器としてシーケンシャルレコメンデータを訓練することを提案する。本手法は,サンプル項目が「現実の」対象項目であるか否かを識別するために識別器を訓練する。
論文参考訳（メタデータ） (Tue, 5 Apr 2022 06:19:45 GMT)
- シーケンシャルレコメンダを識別器として訓練することで優れた性能を達成とのこと（生成器は補助的に使用）。S^3-RecやBERT4Recからかなりの改善幅があるように見えて驚き。
- リポジトリはhttps://github.com/salesforce/ELECRecとのことだが現時点では404

Saycan: 言語モデルの知識を用いたタスク分解

Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.3]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文参考訳（メタデータ） (Mon, 4 Apr 2022 17:57:11 GMT)
- 言語モデルが持つ知識から大きなタスクを複数の小さなタスクに分解することは可能だが、実施不可能なタスク分解が行われることもある。ある領域で実施可能なことを評価関数とすることで変なタスク分解が起きないようにできるとのこと。
  - いろいろなところで自然言語を介した取り組みがあるなーと思う。
- プロジェクトサイトはSayCan (say-can.github.io)

VQGAN & Transformerによるビデオ生成

Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer [66.6]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 7 Apr 2022 17:59:02 GMT)
- 長編ビデオの合成。プロジェクトサイトはLong Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer (songweige.github.io)

言語モデルは説明文から学べるか？

Can language models learn from explanations in context? [21.7]
大規模言語モデルは、いくつかのコンテキスト内例に適応することで、新しいタスクを実行することができる。人間にとって、例からの素早い学習は、例とタスク原則を結びつける説明の恩恵を受けることができる。少数例の説明によって言語モデルがより効果的に適応できるかどうかを考察する。
論文参考訳（メタデータ） (Tue, 5 Apr 2022 16:33:44 GMT)
- few-shot設定で例示される内容に説明を付与すると性能を向上可能という論文。大規模モデルにおいて効果的とのこと。近年の大規模モデルが例と説明の何らかの対応付けができる規模になっているのだとすると面白い。

Truth Serum: 秘密データの漏洩攻撃

Truth Serum: Poisoning Machine Learning Models to Reveal Their Secrets [53.9]
トレーニングデータセットを有害にすることができる敵が、このデータセットでトレーニングされたモデルに、他の当事者のプライベート詳細を漏洩させる可能性があることを示す。私たちの攻撃は、メンバーシップ推論、属性推論、データ抽出に効果的です。私たちの結果は、機械学習のためのマルチパーティプロトコルにおける暗号化プライバシ保証の関連性に疑問を投げかけました。
論文参考訳（メタデータ） (Thu, 31 Mar 2022 18:06:28 GMT)
- 学習用のデータセットに攻撃をすることで、プライバシーに関連するデータを漏洩させることができるとの報告。先行研究ではモデルの保護は困難とのこと。
- 「Untrusted data is not only a threat to integrity.」「Large neural networks are trained on massive datasets which are hard to curate.」ですよね・・・

AIベースの意思決定支援ツール(ADS)と利用者の経験

Improving Human-AI Partnerships in Child Welfare: Understanding Worker Practices, Challenges, and Desires for Algorithmic Decision Support [37.0]
児童福祉機関の一連のインタビューから得られた知見を,現在どのようにAI支援による児童虐待スクリーニングの意思決定を行っているかを理解するために提示する。我々は,(1)AIモデルが捉える以上のリッチで文脈的な情報に対する労働者の信頼,(2)AIモデルの能力と限界に対する信念,(4)アルゴリズム的予測とそれ自身の意思決定目標との相違点の認識によって,労働者のADSへの信頼がいかに導かれるかを観察する。
論文参考訳（メタデータ） (Tue, 5 Apr 2022 16:10:49 GMT)
- 児童福祉機関におけるAI活用意思決定支援ツール利用者へ面接と状況調査を行い、実際にどのような活用がされているか整理した論文。対象はAllegheny Family Screening Toolで児童虐待ホットラインに来た内容の優先順位を付ける支援を行うものとのこと。
- 「判断を強化するが、臨床判断を置き換えるのではなくサポートするツール」という主張、「ツールを過信するようになる」という指摘のどちらも完全に状況を捉えられておらずより複雑であるとのこと。
  - 良い内容でありぜひ読んでみるべきと思う。

PeaQA: Parameter, Efﬁcient, Abstractive Question Answering

Parameter-Efficient Abstractive Question Answering over Tables or Text [60.9]
QAシステムを求める情報の長期的な野望は、マルチモーダルなコンテキストを推論し、ユーザクエリに対する自然な回答を生成することである。メモリ集約型事前学習言語モデルは、構造化されていないテキストや構造化テーブルのような特定のモードでQAデータ上のモデルを微調整することで、QAのような下流タスクに適応する。パラメータ効率の良いアダプタは、トランス層間の小さなタスク固有のボトルネック層を加算し、訓練する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 7 Apr 2022 10:56:29 GMT)
- 構造化表データと非構造化テキストデータの両方を扱え、パラメータ効率の高いアーキテクチャの提案。 tabular QA ではSoTA、textual QA でも競争力のあるパフォーマンスを達成とのこと。

EntSUM: Entity-Centricな要約データセット

EntSUM: A Data Set for Entity-Centric Summarization [27.8]
制御可能な要約は、ユーザが指定した側面や好みを考慮に入れた要約を提供することを目的としている。本稿では、制御可能な要約のための人間アノテーション付きデータセットEntSUMを紹介し、制御の側面として名前付きエンティティに焦点を当てる。
論文参考訳（メタデータ） (Tue, 5 Apr 2022 13:45:54 GMT)
- controllable summarizationのためのデータセット。複数の手法を用いた評価も行われている。
  - Lead3entが強力すぎる・・・
- データセットはhttps://zenodo.org/record/6359875、ライセンスはCreative Commons — Attribution 4.0 International — CC BY 4.0
- リポジトリはbloomberg/entsum · GitHub

Learning-to-rankとGBDT

Which Tricks are Important for Learning to Rank? [21.6]
現在、最先端のLTR(Learning-to-rank)手法は、勾配型決定木(GBDT)に基づいている。最もよく知られているアルゴリズムは10年以上前に提案されたLambdaMARTである。本稿では,これらの手法を統一的に解析する。その結果、学習からランクへのアプローチの洞察を得て、新しい勾配アルゴリズムを得ることができた。
論文参考訳（メタデータ） (Mon, 4 Apr 2022 13:59:04 GMT)
- 実用上重要なLearning-to-rankについて比較検討した論文。YetiRank が優れているとの結論。
- (Yandexの論文でもあり）Catboostで利用可能のよう。

Socratic Model: モデル間の対話を通したマルチモーダル

Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language [49.8]
大規模な基盤モデルは、トレーニングされたデータのドメインによって、ユニークな機能を示すことができます。このモデルの多様性は共生的であり,構造化ソクラテス対話を用いたAIシステム構築に活用可能であることを示す。
論文参考訳（メタデータ） (Fri, 1 Apr 2022 17:43:13 GMT)
- 複数のモデルが通信をしてfine tuning無しでタスクを解く方法の提案。プロンプトが流行しているのを見るにこのようなことは可能なんだろうが、ゼロショットの組み合わせは汎用人工知能っぽい未来を感じる。
- リポジトリはSocratic Models: Composing Zero-Shot Multimodal Reasoning with Language

2025年11月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30