LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation

  • LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation [112.3]
    レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。 提案手法は,レイアウトと画像生成の両面で最先端のモデルより優れている。
    論文  参考訳(メタデータ)   (Wed, 9 Aug 2023 17:45:04 GMT)
  • LLMを通してテキストからレイアウト情報を推測し、画像生成する手法の提案。
  • プロジェクトサイトはLayoutLLM-T2I

When Super-Resolution Meets Camouflaged Object Detection: A Comparison Study

  • When Super-Resolution Meets Camouflaged Object Detection: A Comparison Study [135.2]
    Super Resolution (SR) と Camouflaged Object Detection (COD) は、コンピュータビジョンにおける様々なジョイントアプリケーションとのホットトピックである。 我々は、一般的なCODデータセット上で異なる超解像法をベンチマークする。 SR法により処理されたCODデータを用いて,異なるCODモデルのロバスト性を評価する。
    論文  参考訳(メタデータ)   (Tue, 8 Aug 2023 16:17:46 GMT)
  • カモフラージュされたものに対するObject Detectionと超解像のサーベイ。
  • 超シンプルにやるとどうなるんだろうという気もしなくはない

AUTOMQM

  • The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation [93.0]
    AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。 テキスト内学習と微調整によるラベル付きデータの影響について検討する。 次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
    論文  参考訳(メタデータ)   (Mon, 14 Aug 2023 17:17:21 GMT)
  • 機械翻訳の評価にLLMを使う手法の提案
  • system level / segment level、fine tuning有無、モデル差など多角的な検証がされており興味深い 

GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher

  • GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher [89.5]
    実験により、いくつかの安全領域において、GPT-4の安全性アライメントをバイパスするために、ある暗号がほぼ100%の時間で成功することが示された。 本稿では,ロールプレイのみを使用し,自然言語によるいくつかの実演を行い,これを誘発する新しいSelfCipherを提案する。
    論文  参考訳(メタデータ)   (Sat, 12 Aug 2023 04:05:57 GMT)
  • 暗号を介する事でGPT-4の安全対策を回避できたという報告。最初にLLMに暗号化と復号のルールを教えこむプロセスなのが面白い。
  • リポジトリはGitHub – RobustNLP/CipherChat: A framework to evaluate the generalization capability of safety alignment for LLMs

Self-Alignment with Instruction Backtranslation

  • Self-Alignment with Instruction Backtranslation [133.1]
    本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。 我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
    論文  参考訳(メタデータ)   (Fri, 11 Aug 2023 17:47:54 GMT)
  • unlabeledなデータを活用する手法の提案。考え方としては機械翻訳におけるBack translationに近く「Self-augment: unlabeledなデータから(instruction, output)ペアを作成」「Self-curate: fine tune用のデータとして高品質なデータを選択」からなる。
  • 結果得られたモデルは Alpaca leaderboardで他モデル(ChatGPT, GPT-4など)に依存しないモデルをoutperformしたとのこと。

LLM-Rec

  • LLM-Rec: Personalized Recommendation via Prompting Large Language Models [64.6]
    LLM-Recと呼ばれる提案手法は,4つの異なるプロンプト戦略を包含する。 実験により, 追加入力テキストを組み込むことで, 推薦性能が向上することが示された。
    論文  参考訳(メタデータ)   (Wed, 16 Aug 2023 17:59:07 GMT)
  • LLMを用いたレコメンデーションシステムの提案。直接的にLLMを利用するのではなく入力テキストを拡張するためにLLMを用いるアプローチ
  • 複数のプロンプト戦略を試しておりその結果も面白い。

Platypus

  • Platypus: Quick, Cheap, and Powerful Refinement of LLMs [10.2]
    プラティパス(英: Platypus)は、大規模言語モデル(Large Language Models)のファミリーである。 13B Platypusモデルは、$textita single$ A100 GPUで5時間で25kの質問を使ってトレーニングできる。
    論文  参考訳(メタデータ)   (Mon, 14 Aug 2023 17:59:56 GMT)
  • HuggingFaceのOpen LLM Leaderboardで現状トップのLLMに関する論文。fine-tuned variant of LLaMa-2であるが、13B modelがA100(80GB)×1で5時間、70B model もA100(80GB)×4で22 時間でfine tuningできたというのは興味深い。非常に効率的。
  • プロジェクトサイトはPlatypus (platypus-llm.github.io)

先週はアリババのQwen-7B/README_JA.md at main · QwenLM/Qwen-7B · GitHub(ライセンスはLlama2似ていて一定ユーザ数を超える商用利用は別途の扱うとなる)や松尾研の東京大学松尾研究室 100億パラメータサイズ・日英2ヶ国語対応の大規模言語モデル“Weblab-10B”をオープンソースで公開 ―オープンソースの日本語大規模言語モデルで最高水準―|プレスリリース | UTokyo-Eng (u-tokyo.ac.jp)(ライセンスはCC BY-NC)など日本語が使用可能なLLMの公開がされた。ライセンスは様々であるが少なくとも研究用途であればかなり自由に使えるため非常にありがたい。

CausalLM is not optimal for in-context learning

  • CausalLM is not optimal for in-context learning [21.6]
    最近の経験的証拠は、プレフィックス言語モデル(LM)を用いる場合、コンテクスト内学習に基づくトランスフォーマーがより優れていることを示している。 この結果は直感的であるが、理論的には理解されていない。 本研究では,あるパラメータ構成の下で,プレフィックスLMと因果LMの収束挙動を理論的に解析する。
    論文  参考訳(メタデータ)   (Mon, 14 Aug 2023 03:14:38 GMT)
  • in-context learningの理論的解析と実証実験、「In particular, the stationary points of prefixLM coincides with the optimal least square solution; while the ones of causalLM is equivalent to the weights of an online learning system, that is not guaranteed to converge to the optimal solution.」とのことで「Our experiments verify that causalLM consistently underperforms prefixLM in all settings.」という結論
  • LLM利用でICLはかなり有力&causalLMの流行を考えると面白い結果。

AutoGluon-TimeSeries

Few-Shot Data-to-Text Generation via Unified Representation and Multi-Source Learning

  • Few-Shot Data-to-Text Generation via Unified Representation and Multi-Source Learning [114.5]
    本稿では,既存の手法の限界に対処する構造化データ・テキスト生成手法を提案する。 提案手法は,マルチタスクトレーニング,ゼロショット,少数ショットシナリオの性能向上を目的としている。
    論文  参考訳(メタデータ)   (Thu, 10 Aug 2023 03:09:12 GMT)
  • Data to Textタスクにおけるデータの表現方法に関する論文。非常にシンプルな変換方法に思えるがfew shot設定で優れた性能。
  • 事前学習を考えるとWEBにありそうな表現の方が性能が良いのだろうか。。