- LLMRec: Benchmarking Large Language Models on Recommendation Task [54.5]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。 我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。 ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (Wed, 23 Aug 2023 16:32:54 GMT) - LLMを用いた推薦システム用ベンチマークの提案。「The benchmark results demonstrate that existing LLMs perform well in rating prediction tasks but show poor performance in sequential and direct recommendation tasks.」とのことでいわゆる普通のレコメンデーションタスクについては厳しめの結果。
- リポジトリはhttps://github.com/williamliujl/llmrec
タグ: LLM
Large Language Models as Zero-Shot Conversational Recommenders
- Large Language Models as Zero-Shot Conversational Recommenders [52.6]
ゼロショット設定における代表的大言語モデルを用いた会話推薦タスクに関する実証的研究を行った。 我々は、人気のあるディスカッションサイトをスクラップして、レコメンデーション関連の会話のデータセットを構築した。 我々は、微調整なしでも、大規模な言語モデルは既存の微調整された会話レコメンデーションモデルより優れていることを観察する。
論文 参考訳(メタデータ) (Sat, 19 Aug 2023 15:29:45 GMT) - 対話を通して推薦を行うタスク(CRS: Conversational recommender system)ではLLMが優れているという指摘。LLMが優れているのは(レコメンデーションではあるが)対話能力や言語理解、背景知識が重要なタスクだからだろうか。データ構築プロセスからしてリークの懸念がなくは無いように思う。
- リポジトリはhttps://github.com/aaronheee/llms-as-zero-shot-conversational-recsys
Large Language Models for Information Retrieval: A Survey
- Large Language Models for Information Retrieval: A Survey [56.4]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。 ニューラルネットワークは複雑なコンテキスト信号や意味的ニュアンスを捉えるのに優れていますが、データ不足、解釈可能性、文脈的に妥当で不正確な応答の生成といった課題に直面しています。 近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
論文 参考訳(メタデータ) (Tue, 15 Aug 2023 12:09:20 GMT) - LLMと情報検索に関するサーベイ、query rewritingだけでも色々なアプローチがあることが分かり興味深い。
LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation
- LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation [112.3]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。 提案手法は,レイアウトと画像生成の両面で最先端のモデルより優れている。
論文 参考訳(メタデータ) (Wed, 9 Aug 2023 17:45:04 GMT) - LLMを通してテキストからレイアウト情報を推測し、画像生成する手法の提案。
- プロジェクトサイトはLayoutLLM-T2I
AUTOMQM
- The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation [93.0]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。 テキスト内学習と微調整によるラベル付きデータの影響について検討する。 次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (Mon, 14 Aug 2023 17:17:21 GMT) - 機械翻訳の評価にLLMを使う手法の提案
- system level / segment level、fine tuning有無、モデル差など多角的な検証がされており興味深い
Self-Alignment with Instruction Backtranslation
- Self-Alignment with Instruction Backtranslation [133.1]
本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。 我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
論文 参考訳(メタデータ) (Fri, 11 Aug 2023 17:47:54 GMT) - unlabeledなデータを活用する手法の提案。考え方としては機械翻訳におけるBack translationに近く「Self-augment: unlabeledなデータから(instruction, output)ペアを作成」「Self-curate: fine tune用のデータとして高品質なデータを選択」からなる。
- 結果得られたモデルは Alpaca leaderboardで他モデル(ChatGPT, GPT-4など)に依存しないモデルをoutperformしたとのこと。
LLM-Rec
- LLM-Rec: Personalized Recommendation via Prompting Large Language Models [64.6]
LLM-Recと呼ばれる提案手法は,4つの異なるプロンプト戦略を包含する。 実験により, 追加入力テキストを組み込むことで, 推薦性能が向上することが示された。
論文 参考訳(メタデータ) (Wed, 16 Aug 2023 17:59:07 GMT) - LLMを用いたレコメンデーションシステムの提案。直接的にLLMを利用するのではなく入力テキストを拡張するためにLLMを用いるアプローチ
- 複数のプロンプト戦略を試しておりその結果も面白い。
Platypus
- Platypus: Quick, Cheap, and Powerful Refinement of LLMs [10.2]
プラティパス(英: Platypus)は、大規模言語モデル(Large Language Models)のファミリーである。 13B Platypusモデルは、$textita single$ A100 GPUで5時間で25kの質問を使ってトレーニングできる。
論文 参考訳(メタデータ) (Mon, 14 Aug 2023 17:59:56 GMT) - HuggingFaceのOpen LLM Leaderboardで現状トップのLLMに関する論文。fine-tuned variant of LLaMa-2であるが、13B modelがA100(80GB)×1で5時間、70B model もA100(80GB)×4で22 時間でfine tuningできたというのは興味深い。非常に効率的。
- プロジェクトサイトはPlatypus (platypus-llm.github.io)
先週はアリババのQwen-7B/README_JA.md at main · QwenLM/Qwen-7B · GitHub(ライセンスはLlama2似ていて一定ユーザ数を超える商用利用は別途の扱うとなる)や松尾研の東京大学松尾研究室 100億パラメータサイズ・日英2ヶ国語対応の大規模言語モデル“Weblab-10B”をオープンソースで公開 ―オープンソースの日本語大規模言語モデルで最高水準―|プレスリリース | UTokyo-Eng (u-tokyo.ac.jp)(ライセンスはCC BY-NC)など日本語が使用可能なLLMの公開がされた。ライセンスは様々であるが少なくとも研究用途であればかなり自由に使えるため非常にありがたい。
Trustworthy LLMs
- Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models’ Alignment [15.7]
本稿では,大規模言語モデル(LLM)の評価において考慮すべき重要な要素について,包括的に調査する。 この調査は、信頼性、安全性、公正性、誤用に対する抵抗性、説明可能性と推論、社会的規範への固執、堅牢性の7つの主要なカテゴリーをカバーしている。 結果は、一般に、より整合したモデルは、全体的な信頼性の観点から、より良いパフォーマンスを示す傾向があることを示している。
論文 参考訳(メタデータ) (Thu, 10 Aug 2023 06:43:44 GMT) - LLMの社会実装に関する包括的なサーベイ。reliability, safety, fairness, resistance to misuse, explainability and reasoning, adherence to social norms, robustnessが対象で大規模。
Follow Anything
- Follow Anything: Open-set detection, tracking, and following in real-time [69.4]
我々は,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。 私たちのアプローチは、何でも従う”(FAn)と呼ばれ、オープンな語彙とマルチモーダルモデルです。 FAnは軽量(6~8GB)グラフィックカードでラップトップにデプロイでき、毎秒6~20フレームのスループットを実現する。
論文 参考訳(メタデータ) (Thu, 10 Aug 2023 17:57:06 GMT) - 物体検出と追跡のフレームワーク。LLMが組み合わせっているのも面白い。
- リポジトリはGitHub – alaamaalouf/FollowAnything