コンテンツへスキップ
- Llama 2: Open Foundation and Fine-Tuned Chat Models [65.4]
Llama 2は、事前訓練と微調整を施した大規模言語モデル(LLM)のコレクションである。 Llama 2-Chatと呼ばれる細調整 LLM は対話のユースケースに最適化されている。
論文 参考訳(メタデータ) (Wed, 19 Jul 2023 17:08:59 GMT)
- Llama 2が発表された。論文での性能、デモページの性能共に強力なLLMである印象。論文によると日本語データは0.1%程度しか含まれていないとのことだが、日本語の読解や生成もかなりのレベルで実現できているように見える。OSSタグを貼っているが、非常に多くのMAU(7ooM)がある場合は別途申請が必要、出力を他のモデルの強化に使えない(You will not use the Llama Materials or any output or results of the Llama Materials to improve any other large language model (excluding Llama 2 or derivative works thereof).)などApache-2ライセンスなどとは異なる点に注意が必要。
- StabilityAIがfine tunedなモデルを発表するなど、Llama2をベースにした派生モデルの多くなりそう。Meet FreeWilly, Our Large And Mighty Instruction Fine-Tuned Models — Stability AI
- 公式サイトはLlama 2 – Meta AI huggingfaceへのリンクはmeta-llama (Meta Llama 2) (huggingface.co)
- On the Origin of LLMs: An Evolutionary Tree and Graph for 15,821 Large Language Models [0.0]
大規模言語モデル(LLM)は、ChatGPTやBardといったLLMが数百万のユーザを獲得して、非常に注目されている。 我々は15,821 LLMのコンステレーションをナビゲートし探索するための公開ウェブアプリケーションを提案する。
論文 参考訳(メタデータ) (Wed, 19 Jul 2023 07:17:43 GMT)
- 派生モデルを含め非常に多くのモデルが出ているLLMを探索するためのアプリケーションの提案
- プロジェクトサイトはConstellation (stanford.edu)で、リンクから利用可能。データセットなどはandrewgcodes (Andrew Kean Gao) · GitHubで公開予定とのこと。
- MMBench: Is Your Multi-modal Model an All-around Player? [90.7]
大規模な視覚言語モデルを評価する方法は依然として大きな障害であり、将来のモデル開発を妨げる。 従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非破壊評価の指標が欠如している。 近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。 MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。
論文 参考訳(メタデータ) (Wed, 12 Jul 2023 16:23:09 GMT)
- Vision/Languageのベンチマーク。検証する能力が20あり、包括的なものになっている。プロジェクトサイトはOpenCompass
- Secrets of RLHF in Large Language Models Part I: PPO [81.0]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。 現在の技術ルートには、人間の嗜好を測定するための reward モデル、ポリシーモデルの出力を最適化する Proximal Policy Optimization (PPO)、ステップバイステップの推論能力を改善する process 監督が含まれる。 しかし、報酬設計、環境相互作用、エージェントトレーニングといった課題と、大規模な言語モデルの大規模な試行とエラーコストが相まって、AI研究者が技術的アライメントの開発を動機付ける大きな障壁がある。
論文 参考訳(メタデータ) (Tue, 11 Jul 2023 01:55:24 GMT)
- RLHFに関する詳細なレポート、リポジトリはGitHub – OpenLMLab/MOSS-RLHF: MOSS-RLHF、プロジェクトサイトがMOSS-RLHF (openlmlab.github.io)にある。
- VideoGLUE: Video General Understanding Evaluation of Foundation Models [89.2]
3つのタスクからなる慎重に設計された実験を用いて,既存の基礎モデルによる映像理解能力の評価を行った。 一般的なビデオ理解タスクに適応する際のFMの有効性と効率を測定するために,ビデオGLUEスコア(VGS)を提案する。
論文 参考訳(メタデータ) (Thu, 6 Jul 2023 17:47:52 GMT)
- ビデオ理解における既存のFoudation Modelの比較、タスクはSpatioTemporal Action Localization (STAL), Temporal Action Localization (TAL), Video Classification (VC)
- 画像ベースのモデルが良い性能だったりすることがあり興味深い
- Prompts Should not be Seen as Secrets: Systematically Measuring Prompt Extraction Attack Success [13.8]
本稿では,迅速な抽出攻撃の成功を測定するための枠組みを提案する。 単純なテキストベースの攻撃は、実際に高い確率でプロンプトを明らかにすることができる。
論文 参考訳(メタデータ) (Thu, 13 Jul 2023 16:15:08 GMT)
- Prompt抽出攻撃が高い確率で成功し、かつ、成功したことを確認可能であるという報告。防御も簡単ではないとのこと。。
- Benchmarking Bayesian Causal Discovery Methods for Downstream Treatment Effect Estimation [137.4]
本稿では,GFlowNetsに基づく6つの因果探索手法と新たな手法を提案する。 治療効果推定におけるこれらの因果発見法の有効性について貴重な知見を提供する。 本研究の結果から,GFlowNets は多種多様な ATE モードを効果的に捉えることができることを示した。
論文 参考訳(メタデータ) (Tue, 11 Jul 2023 02:58:10 GMT)
- Causal discovery手法の評価、性能指標的にはかなり微妙&結構なブレ幅があるように見えるがこれを有効といってよいのだろうか、、、
- TIM: Teaching Large Language Models to Translate with Comparison [52.8]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。 我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。 本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (Mon, 10 Jul 2023 08:15:40 GMT)
- 正しい翻訳と間違った翻訳間のpreference loss を導入してLLMの翻訳性能を上げる手法の提案。通常のfine tuningにくらべ優れた性能を発揮。新たな言語へのZero-shot Translation能力も向上している点も興味深い。他のタスクのマルチリンガル性能への影響も気になるところ。
- リポジトリはGitHub – lemon0830/TIM: code for Teaching LM to Translate with Comparison