2024年1月10日 – arXiv最新論文の紹介

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models [15.7]
PIAは、条件画像との整合性、テキストによる動作制御性、および特定のチューニングなしで様々なパーソナライズされたT2Iモデルとの互換性に優れる。 PIAのキーコンポーネントは条件モジュールの導入であり、入力として条件フレームとフレーム間の親和性を利用する。
論文参考訳（メタデータ） (Thu, 21 Dec 2023 15:51:12 GMT)
入力画像＋テキストからのアニメーション生成。アニメ中の破綻が少ない。
リポジトリはPIA: Personalized Image Animator (pi-animator.github.io)、デモもある。

Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 [26.1]
本稿では,大規模言語モデルのクエリとプロンプトのプロセスの合理化を図った26の原則を紹介する。 LLaMA-1/2 (7B, 13B, 70B) と GPT-3.5/4 を用いて実験を行い, 提案法の有効性を検証した。
論文参考訳（メタデータ） (Tue, 26 Dec 2023 18:59:33 GMT)
LLMへのプロンプトでよく言われているベストプラクティス的な手法を試し比較した論文。それなりに有効そうなものが多い。
リポジトリはVILA-Lab/ATLAS: Principled instruction dataset on formulating effective queries and prompts for large language models (LLMs). Our paper: https://arxiv.org/abs/2312.16171 (github.com)