arXiv最新論文の紹介

SeamlessM4T

SeamlessM4T-Massively Multilingual & Multimodal Machine Translation [90.7]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。 FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文参考訳（メタデータ） (Wed, 23 Aug 2023 21:02:01 GMT)
Metaによる多言語音声機械翻訳モデルでありS2ST(speech-to-speech translation), S2TT(speech-to-text translation), T2TT(text-to-text translation)＋ ASR(automatic speech recognition)に対応。音声からの機械翻訳でSoTAを主張。
以下がリポジトリでモデルも公開されている。https://github.com/facebookresearch/seamless_communication　「seamless_communication is CC-BY-NC 4.0 licensed, as found in LICENSE file」とのこと。

Large Language Models for Information Retrieval: A Survey

Large Language Models for Information Retrieval: A Survey [56.4]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。ニューラルネットワークは複雑なコンテキスト信号や意味的ニュアンスを捉えるのに優れていますが、データ不足、解釈可能性、文脈的に妥当で不正確な応答の生成といった課題に直面しています。近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
論文参考訳（メタデータ） (Tue, 15 Aug 2023 12:09:20 GMT)
LLMと情報検索に関するサーベイ、query rewritingだけでも色々なアプローチがあることが分かり興味深い。

LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation

LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation [112.3]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。提案手法は,レイアウトと画像生成の両面で最先端のモデルより優れている。
論文参考訳（メタデータ） (Wed, 9 Aug 2023 17:45:04 GMT)
LLMを通してテキストからレイアウト情報を推測し、画像生成する手法の提案。
プロジェクトサイトはLayoutLLM-T2I

When Super-Resolution Meets Camouflaged Object Detection: A Comparison Study

When Super-Resolution Meets Camouflaged Object Detection: A Comparison Study [135.2]
Super Resolution (SR) と Camouflaged Object Detection (COD) は、コンピュータビジョンにおける様々なジョイントアプリケーションとのホットトピックである。我々は、一般的なCODデータセット上で異なる超解像法をベンチマークする。 SR法により処理されたCODデータを用いて,異なるCODモデルのロバスト性を評価する。
論文参考訳（メタデータ） (Tue, 8 Aug 2023 16:17:46 GMT)
カモフラージュされたものに対するObject Detectionと超解像のサーベイ。
超シンプルにやるとどうなるんだろうという気もしなくはない

AUTOMQM

The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation [93.0]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。テキスト内学習と微調整によるラベル付きデータの影響について検討する。次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文参考訳（メタデータ） (Mon, 14 Aug 2023 17:17:21 GMT)
機械翻訳の評価にLLMを使う手法の提案
system level / segment level、fine tuning有無、モデル差など多角的な検証がされており興味深い

GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher

GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher [89.5]
実験により、いくつかの安全領域において、GPT-4の安全性アライメントをバイパスするために、ある暗号がほぼ100%の時間で成功することが示された。本稿では,ロールプレイのみを使用し,自然言語によるいくつかの実演を行い,これを誘発する新しいSelfCipherを提案する。
論文参考訳（メタデータ） (Sat, 12 Aug 2023 04:05:57 GMT)
暗号を介する事でGPT-4の安全対策を回避できたという報告。最初にLLMに暗号化と復号のルールを教えこむプロセスなのが面白い。
リポジトリはGitHub – RobustNLP/CipherChat: A framework to evaluate the generalization capability of safety alignment for LLMs

Self-Alignment with Instruction Backtranslation

Self-Alignment with Instruction Backtranslation [133.1]
本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
論文参考訳（メタデータ） (Fri, 11 Aug 2023 17:47:54 GMT)
unlabeledなデータを活用する手法の提案。考え方としては機械翻訳におけるBack translationに近く「Self-augment: unlabeledなデータから(instruction, output)ペアを作成」「Self-curate: fine tune用のデータとして高品質なデータを選択」からなる。
結果得られたモデルは Alpaca leaderboardで他モデル（ChatGPT, GPT-4など）に依存しないモデルをoutperformしたとのこと。

LLM-Rec

LLM-Rec: Personalized Recommendation via Prompting Large Language Models [64.6]
LLM-Recと呼ばれる提案手法は,4つの異なるプロンプト戦略を包含する。実験により, 追加入力テキストを組み込むことで, 推薦性能が向上することが示された。
論文参考訳（メタデータ） (Wed, 16 Aug 2023 17:59:07 GMT)
LLMを用いたレコメンデーションシステムの提案。直接的にLLMを利用するのではなく入力テキストを拡張するためにLLMを用いるアプローチ
複数のプロンプト戦略を試しておりその結果も面白い。

Platypus

Platypus: Quick, Cheap, and Powerful Refinement of LLMs [10.2]
プラティパス(英: Platypus)は、大規模言語モデル(Large Language Models)のファミリーである。 13B Platypusモデルは、$textita single$ A100 GPUで5時間で25kの質問を使ってトレーニングできる。
論文参考訳（メタデータ） (Mon, 14 Aug 2023 17:59:56 GMT)
HuggingFaceのOpen LLM Leaderboardで現状トップのLLMに関する論文。fine-tuned variant of LLaMa-2であるが、13B modelがA100(80GB)×1で5時間、70B model もA100(80GB)×4で22 時間でfine tuningできたというのは興味深い。非常に効率的。
プロジェクトサイトはPlatypus (platypus-llm.github.io)

先週はアリババのQwen-7B/README_JA.md at main · QwenLM/Qwen-7B · GitHub（ライセンスはLlama2似ていて一定ユーザ数を超える商用利用は別途の扱うとなる）や松尾研の東京大学松尾研究室 100億パラメータサイズ・日英2ヶ国語対応の大規模言語モデル“Weblab-10B”をオープンソースで公開 ―オープンソースの日本語大規模言語モデルで最高水準―｜プレスリリース | UTokyo-Eng (u-tokyo.ac.jp)（ライセンスはCC BY-NC）など日本語が使用可能なLLMの公開がされた。ライセンスは様々であるが少なくとも研究用途であればかなり自由に使えるため非常にありがたい。

CausalLM is not optimal for in-context learning

CausalLM is not optimal for in-context learning [21.6]
最近の経験的証拠は、プレフィックス言語モデル(LM)を用いる場合、コンテクスト内学習に基づくトランスフォーマーがより優れていることを示している。この結果は直感的であるが、理論的には理解されていない。本研究では,あるパラメータ構成の下で,プレフィックスLMと因果LMの収束挙動を理論的に解析する。
論文参考訳（メタデータ） (Mon, 14 Aug 2023 03:14:38 GMT)
in-context learningの理論的解析と実証実験、「In particular, the stationary points of prefixLM coincides with the optimal least square solution; while the ones of causalLM is equivalent to the weights of an online learning system, that is not guaranteed to converge to the optimal solution.」とのことで「Our experiments verify that causalLM consistently underperforms prefixLM in all settings.」という結論
LLM利用でICLはかなり有力＆causalLMの流行を考えると面白い結果。

2026年2月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28