arXiv最新論文の紹介

Passau-SFCH: マルチモーダルなユーモア検出データセット

Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [58.8]
ユーモアは人間の感情と認知の重要な要素である。ユーモア検出の現在の方法は、単にステージ化されたデータに基づいており、’現実世界’のアプリケーションには不十分である。約11時間の録音を含むPassau-Spontaneous Football Coach Humourデータセットについて紹介する。
論文参考訳（メタデータ） (Wed, 28 Sep 2022 17:36:47 GMT)
- ユーモア検出データセットの提案、表情が有力な特徴量だったとのこと。
  - 論文中に紹介されていたユーモアの分類も面白かった
- リポジトリはEIHW/passau-sfch (github.com)

大規模言語モデルのバイアス（CoDaを用いた検証）

Do ever larger octopi still amplify reporting biases? Evidence from judgments of typical colour [27.8]
原文で訓練された言語モデル(LM)は、物理世界に直接アクセスすることができない。より大きな言語モデルにおける色の観点からの報告バイアスについて検討する。
論文参考訳（メタデータ） (Mon, 26 Sep 2022 15:45:23 GMT)
- 大規模言語モデルのバイアスを色に関するPromptで検証した論文。言語モデルが非常に大規模になるとGoogle Ngramよりも人間のスコアに近づいているのが面白い。
- データセットとしてnala-cub/coda: The World of an Octopus: How Reporting Bias Influences a Language Model’s Perception of Color (github.com)　を使用している

Dataset distillationを用いた医療画像共有

Dataset Distillation for Medical Dataset Sharing [38.7]
データセットの蒸留は、トレーニングされたモデルが元の大きなデータセットと同等のパフォーマンスを達成するように、小さなデータセットを合成することができる。新型コロナウイルスの胸部X線画像データセットによる実験結果から,胸部X線画像が不足していても高い検出性能が得られた。
論文参考訳（メタデータ） (Thu, 29 Sep 2022 07:49:20 GMT)
- Dataset Distillationを医療画像のようなプライバシーが重要な分野に適用するという論文。プライバシー保護とコスト低減を両立できそうな点が面白い
  - 各種攻撃への耐性に興味津々

同じグループからデータセット蒸留法も提案されている。

Dataset Distillation using Parameter Pruning [38.7]
データセットの蒸留は、トレーニングされたモデルが元の大きなデータセットと同等に高いパフォーマンスを達成するように、小さなデータセットを合成することができる。提案手法は, より堅牢な蒸留データセットを合成し, 蒸留プロセスにおいて, 難解なパラメータを抽出することにより蒸留性能を向上させる。
論文参考訳（メタデータ） (Thu, 29 Sep 2022 07:58:32 GMT)

Can Large Language Models Truly Understand Prompts?

Can Large Language Models Truly Understand Prompts? A Case Study with Negated Prompts [19.4]
これまでの研究では、言語モデル(LM)のサイズと、異なる下流のNLPタスクにおけるゼロショットのパフォーマンスとの間には、スケーリングの法則が存在することが示されている。本研究では,この現象が負のプロンプトでタスク上で大きなLMを評価する際には有効ではなく,逆のスケーリング法則を示す。
論文参考訳（メタデータ） (Mon, 26 Sep 2022 14:05:10 GMT)
- プロンプトの表現を否定形で逆にした場合の動作はどうなるか検証した論文。結果、モデルサイズによらず大規模言語モデルは否定的なプロンプトを解釈できていないように見えるとのこと。
  - この手のモデルを「指示を出せるAI」と表現はできなさそうな結果でプロンプトは「解こうとしているモノ」を雰囲気で指定しているにすぎなさそう（人間でもひっかけ問題で同様の間違いをすることはあるので発展途上なだけかもだが）
- リポジトリはjoeljang/negated-prompts-for-llms: Can Large Language Models Truly Understand Prompts? A Case Study with Negated Prompts (github.com)

SAP: Sequential Autoregressive Prompting

Bidirectional Language Models Are Also Few-shot Learners [54.4]
SAP(Sequential Autoregressive Prompting)は,双方向モデルの高速化を実現する技術である。 SAPは質問応答と要約に有効であることを示す。この結果から,より広範な言語モデルの創発的特性として,プロンプトに基づく学習が証明された。
論文参考訳（メタデータ） (Thu, 29 Sep 2022 01:35:57 GMT)
- Promptを用いるモデルのほとんどが単方向モデルだが、双方向モデルでもpromptを実現するフレームワークを提案、少ないパラメータでzero/few shotでの優れた性能を確認とのこと。
- 面白い結果である一方で（論文でも触れられている通り）計算コストが凄そう…
  - 双方向だと穴埋めがベースなのでしょうがないとも思いつつ、パラメータが少ないけど計算量が莫大って本当に少ないパラメータで済んでいるのだろうか…？

DreamFusion

DreamFusion: Text-to-3D using 2D Diffusion [52.5]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文参考訳（メタデータ） (Thu, 29 Sep 2022 17:50:40 GMT)
- テキストからの3Dモデルの生成、Imagen（64×64） + NeRF like modelとのこと
- DreamFusion: Text-to-3D using 2D Diffusion (dreamfusion3d.github.io)

Text-to-Video without Text-Video Data

Make-A-Video: Text-to-Video Generation without Text-Video Data [69.2]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文参考訳（メタデータ） (Thu, 29 Sep 2022 13:59:46 GMT)
- テキストからの動画作成。text2imageモデルをベースに動画データ＋教師無し学習で構築されたモデルで動画への補間を行っているよう
- プロジェクトサイトはhttps://make-a-video.github.io

要約を対象としたContrastive Learningによるre-ranking

COLO: A Contrastive Learning based Re-ranking Framework for One-Stage Summarization [84.7]
コントラスト学習に基づく一段階要約フレームワークであるCOLOを提案する。 COLOはCNN/DailyMailベンチマークの1段階システムの抽出と抽象化結果を44.58と46.33ROUGE-1スコアに引き上げた。
論文参考訳（メタデータ） (Thu, 29 Sep 2022 06:11:21 GMT)
- 通常2段階で行われる要約＆re-rankingを1段階で実施するフレームワークの提案。CNN/DailyMailで評価し優れた性能を確認。
- リポジトリはChenxinAn-fdu/CoLo: Code for COLING 2022 paper: “COLO: A Contrastive Learning based Re-ranking Framework for One-Stage Summarization” (github.com)

Trustworthy Recommender Systemのサーベイ

A Comprehensive Survey on Trustworthy Recommender Systems [32.5]
本稿では,信頼に値するレコメンダシステム (TRec) の概要について概説する。それぞれの側面について、最近の技術についてまとめ、信頼性の高いレコメンデータシステムの実現を支援する研究の方向性について論じる。
論文参考訳（メタデータ） (Wed, 21 Sep 2022 04:34:17 GMT)

AutoMLとIoT

IoT Data Analytics in Dynamic Environments: From An Automated Machine Learning Perspective [10.4]
本稿では,AutoMLの領域におけるモデル選択,チューニング,手順の更新において,既存の手法の見直しを行う。我々の発見を正当化し、産業ユーザや研究者がAutoMLアプローチをよりうまく実装するのを助けるために、AutoMLをIoT異常検出問題に適用するケーススタディが実施されている。
論文参考訳（メタデータ） (Fri, 16 Sep 2022 16:02:56 GMT)
- IoTデータへのAutoML適用に関するサーベイ。前処理～モデル構築、そのアップデートに至るまでAutoML全般に対するサーベイとしても参考になる。100ページ超とほぼ本。
- リポジトリはWestern-OC2-Lab/AutoML-Implementation-for-Static-and-Dynamic-Data-Analytics: Implementation/Tutorial of Automated Machine Learning (AutoML) methods for static/batch and online data analytics (github.com)

2026年7月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31