- Large Language Models as Zero-Shot Conversational Recommenders [52.6]
ゼロショット設定における代表的大言語モデルを用いた会話推薦タスクに関する実証的研究を行った。 我々は、人気のあるディスカッションサイトをスクラップして、レコメンデーション関連の会話のデータセットを構築した。 我々は、微調整なしでも、大規模な言語モデルは既存の微調整された会話レコメンデーションモデルより優れていることを観察する。
論文 参考訳(メタデータ) (Sat, 19 Aug 2023 15:29:45 GMT) - 対話を通して推薦を行うタスク(CRS: Conversational recommender system)ではLLMが優れているという指摘。LLMが優れているのは(レコメンデーションではあるが)対話能力や言語理解、背景知識が重要なタスクだからだろうか。データ構築プロセスからしてリークの懸念がなくは無いように思う。
- リポジトリはhttps://github.com/aaronheee/llms-as-zero-shot-conversational-recsys
SeamlessM4T
- SeamlessM4T-Massively Multilingual & Multimodal Machine Translation [90.7]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。 我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。 FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (Wed, 23 Aug 2023 21:02:01 GMT) - Metaによる多言語音声機械翻訳モデルでありS2ST(speech-to-speech translation), S2TT(speech-to-text translation), T2TT(text-to-text translation)+ ASR(automatic speech recognition)に対応。音声からの機械翻訳でSoTAを主張。
- 以下がリポジトリでモデルも公開されている。https://github.com/facebookresearch/seamless_communication 「seamless_communication is CC-BY-NC 4.0 licensed, as found in LICENSE file」とのこと。
Large Language Models for Information Retrieval: A Survey
- Large Language Models for Information Retrieval: A Survey [56.4]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。 ニューラルネットワークは複雑なコンテキスト信号や意味的ニュアンスを捉えるのに優れていますが、データ不足、解釈可能性、文脈的に妥当で不正確な応答の生成といった課題に直面しています。 近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
論文 参考訳(メタデータ) (Tue, 15 Aug 2023 12:09:20 GMT) - LLMと情報検索に関するサーベイ、query rewritingだけでも色々なアプローチがあることが分かり興味深い。
LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation
- LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation [112.3]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。 提案手法は,レイアウトと画像生成の両面で最先端のモデルより優れている。
論文 参考訳(メタデータ) (Wed, 9 Aug 2023 17:45:04 GMT) - LLMを通してテキストからレイアウト情報を推測し、画像生成する手法の提案。
- プロジェクトサイトはLayoutLLM-T2I
When Super-Resolution Meets Camouflaged Object Detection: A Comparison Study
- When Super-Resolution Meets Camouflaged Object Detection: A Comparison Study [135.2]
Super Resolution (SR) と Camouflaged Object Detection (COD) は、コンピュータビジョンにおける様々なジョイントアプリケーションとのホットトピックである。 我々は、一般的なCODデータセット上で異なる超解像法をベンチマークする。 SR法により処理されたCODデータを用いて,異なるCODモデルのロバスト性を評価する。
論文 参考訳(メタデータ) (Tue, 8 Aug 2023 16:17:46 GMT) - カモフラージュされたものに対するObject Detectionと超解像のサーベイ。
- 超シンプルにやるとどうなるんだろうという気もしなくはない
AUTOMQM
- The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation [93.0]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。 テキスト内学習と微調整によるラベル付きデータの影響について検討する。 次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (Mon, 14 Aug 2023 17:17:21 GMT) - 機械翻訳の評価にLLMを使う手法の提案
- system level / segment level、fine tuning有無、モデル差など多角的な検証がされており興味深い
GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher
- GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher [89.5]
実験により、いくつかの安全領域において、GPT-4の安全性アライメントをバイパスするために、ある暗号がほぼ100%の時間で成功することが示された。 本稿では,ロールプレイのみを使用し,自然言語によるいくつかの実演を行い,これを誘発する新しいSelfCipherを提案する。
論文 参考訳(メタデータ) (Sat, 12 Aug 2023 04:05:57 GMT) - 暗号を介する事でGPT-4の安全対策を回避できたという報告。最初にLLMに暗号化と復号のルールを教えこむプロセスなのが面白い。
- リポジトリはGitHub – RobustNLP/CipherChat: A framework to evaluate the generalization capability of safety alignment for LLMs
Self-Alignment with Instruction Backtranslation
- Self-Alignment with Instruction Backtranslation [133.1]
本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。 我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
論文 参考訳(メタデータ) (Fri, 11 Aug 2023 17:47:54 GMT) - unlabeledなデータを活用する手法の提案。考え方としては機械翻訳におけるBack translationに近く「Self-augment: unlabeledなデータから(instruction, output)ペアを作成」「Self-curate: fine tune用のデータとして高品質なデータを選択」からなる。
- 結果得られたモデルは Alpaca leaderboardで他モデル(ChatGPT, GPT-4など)に依存しないモデルをoutperformしたとのこと。
LLM-Rec
- LLM-Rec: Personalized Recommendation via Prompting Large Language Models [64.6]
LLM-Recと呼ばれる提案手法は,4つの異なるプロンプト戦略を包含する。 実験により, 追加入力テキストを組み込むことで, 推薦性能が向上することが示された。
論文 参考訳(メタデータ) (Wed, 16 Aug 2023 17:59:07 GMT) - LLMを用いたレコメンデーションシステムの提案。直接的にLLMを利用するのではなく入力テキストを拡張するためにLLMを用いるアプローチ
- 複数のプロンプト戦略を試しておりその結果も面白い。
Platypus
- Platypus: Quick, Cheap, and Powerful Refinement of LLMs [10.2]
プラティパス(英: Platypus)は、大規模言語モデル(Large Language Models)のファミリーである。 13B Platypusモデルは、$textita single$ A100 GPUで5時間で25kの質問を使ってトレーニングできる。
論文 参考訳(メタデータ) (Mon, 14 Aug 2023 17:59:56 GMT) - HuggingFaceのOpen LLM Leaderboardで現状トップのLLMに関する論文。fine-tuned variant of LLaMa-2であるが、13B modelがA100(80GB)×1で5時間、70B model もA100(80GB)×4で22 時間でfine tuningできたというのは興味深い。非常に効率的。
- プロジェクトサイトはPlatypus (platypus-llm.github.io)
先週はアリババのQwen-7B/README_JA.md at main · QwenLM/Qwen-7B · GitHub(ライセンスはLlama2似ていて一定ユーザ数を超える商用利用は別途の扱うとなる)や松尾研の東京大学松尾研究室 100億パラメータサイズ・日英2ヶ国語対応の大規模言語モデル“Weblab-10B”をオープンソースで公開 ―オープンソースの日本語大規模言語モデルで最高水準―|プレスリリース | UTokyo-Eng (u-tokyo.ac.jp)(ライセンスはCC BY-NC)など日本語が使用可能なLLMの公開がされた。ライセンスは様々であるが少なくとも研究用途であればかなり自由に使えるため非常にありがたい。