- A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions [31.0]
大規模言語モデル(LLM)は、人間レベルの言語の生成と理解に優れた能力があることから、大きな注目を集めている。 LLMは医療分野において革新的で強力なアドジャンクとして出現し、伝統的なプラクティスを変革し、医療サービス強化の新しい時代を告げている。
論文 参考訳(メタデータ) (Thu, 06 Jun 2024 03:15:13 GMT) - 医療分野へのLLM応用のサーベイ
- 医療はNLPの応用先として有力な分野。この分野での状況はLLMの応用全般がどうなっていくか考えるうえでも興味深い。
投稿者: staka
Nemotron-4 340B
NVIDIAからオープンなモデルNemotron-4 340Bが発表された。
NVIDIA today announced Nemotron-4 340B, a family of open models that developers can use to generate synthetic data for training large language models (LLMs) for commercial applications across healthcare, finance, manufacturing, retail and every other industry.
とのことでSynthetic dataの生成を目的として挙げている珍しいタイプのモデル。ライセンスも寛容(nvidia-open-model-license-agreement-june-2024.pdf)で
• Models are commercially useable.
• You are free to create and distribute Derivative Models.
• NVIDIA does not claim ownership to any outputs generated using the Models or Model Derivatives.
とのこと。下記条項も特徴的。Apache-2ライセンスの特許条項に近いものを感じる。
If You institute copyright or patent litigation against any entity (including a crossclaim or counterclaim in a lawsuit) alleging that the Model or a Derivative Model constitutes direct or contributory copyright or patent infringement, then any licenses granted to You under this Agreement for that Model or Derivative Model will terminate as of the date such litigation is filed.
性能は高くllama3 70Bを超えていそう。また、Nemotron-4-340B-RewardはGitHub – allenai/reward-bench: RewardBench: the first evaluation tool for reward models.で商用モデル(GPT-4oやGemini Proなど)を上回る。
fine tuningを含めローカルLLMを作ろうと考えるときに非常に有用なモデルでハードウェアを押さえているNVIDIAらしい動き。
Rewardモデルについては下記論文も参考になる。
- HelpSteer2: Open-source dataset for training top-performing reward models [9.2]
我々はパーミッシブにライセンスされた選好データセットであるHelpSteer2を開発した。 HelpSteer2は1万のレスポンスペアで構成されている。 本稿では,報奨モデルによって予測される多属性スコアを効果的に活用できるモデルアライメント手法であるSteerLM 2.0を提案する。
論文 参考訳(メタデータ) (Wed, 12 Jun 2024 22:28:08 GMT) - NVIDIAによるRewardモデル用データセットと手法の提案
- データはnvidia/HelpSteer2 · Datasets at Hugging Face リポジトリはGitHub – NVIDIA/NeMo-Aligner: Scalable toolkit for efficient model alignment
The Prompt Report: A Systematic Survey of Prompting Techniques
- The Prompt Report: A Systematic Survey of Prompting Techniques [42.6]
本稿では, プロンプトの分類を組立て, 利用分析を行うことにより, プロンプトの構造的理解を確立した。 本稿では,33の語彙の包括的語彙,58のテキストのみのプロンプト技術,40のモダリティのテクニックを提示する。
論文 参考訳(メタデータ) (Thu, 06 Jun 2024 18:10:11 GMT) - プロンプトテクニックのサーベイ
- 本当に色々あるという感想。そして本サーベイに入っていないものもいっぱいある…。
Towards Vision-Language Geo-Foundation Model: A Survey
- Towards Vision-Language Geo-Foundation Model: A Survey [65.7]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。 本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (Thu, 13 Jun 2024 17:57:30 GMT) - Vision-Language Geo-Foundation Model(VLGFM)に関するサーベイ。Vision & Languageな基盤モデルで地球観測(地理的なもの)を含むものをVLGFMとしている。数多く発表されているのに若干驚き。
- リポジトリはGitHub – zytx121/Awesome-VLGFM: A Survey on Vision-Language Geo-Foundation Models (VLGFMs)
DeepStack
- DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs [137.9]
ほとんどの大きなマルチモーダルモデル(LMM)は、大きな言語モデル(LLM)の第1層にシーケンスとして視覚トークンを供給することによって実装される。 本稿では,LMMのための新しいアーキテクチャであるDeepStackについて述べる。LMMの言語層とビジョントランスフォーマーの$N$レイヤを考慮すると,視覚トークンを$N$グループに積み上げ,各グループを下位から上位までの整列トランスフォーマー層に供給する。 驚くべきことに、この単純な手法は、レイヤ間の視覚トークン間の相互作用をモデル化するLMMのパワーを、最小限のコストで大幅に向上させる。
論文 参考訳(メタデータ) (Thu, 06 Jun 2024 17:59:34 GMT) - Vision-Languageの構成で単純に第一層にVisionのデータを投入するのではなく、複数の層に情報を供給することで性能が高くなるとのこと。レイヤごとに解像度を変える戦略。TextVQA, DocVQA, InfoVQAでLLaVA 1.5を改善。
- リポジトリはDeepStack (deepstack-vl.github.io)
Improving In-Context Learning with Prediction Feedback for Sentiment Analysis
- Improving In-Context Learning with Prediction Feedback for Sentiment Analysis [45.5]
大規模言語モデル(LLM)は、文脈内学習(ICL)パラダイムを通じて感情分析において有望な結果を得た。 人間のフィードバックによる理解の調整能力にインスパイアされた本論文は,事前の予測とフィードバックを取り入れたICLを強化する。 9つの感情分析データセットによる実験結果から,従来のICL法よりもフレームワークが優れていることが示され,平均F1改善率は5.95%となった。
論文 参考訳(メタデータ) (Wed, 05 Jun 2024 04:04:08 GMT) - 「(1) acquiring prior predictions of LLMs, (2) devising predictive feedback based on correctness, and (3) leveraging a feedbackdriven prompt to refine sentiment understanding.」と、実利用時に「予測結果へのFeedback付きのデータ」を入れICLを行うことで性能を改善。
- リポジトリはGitHub – HITSZ-HLT/Feedback-ICL
LLMs Meet Multimodal Generation and Editing: A Survey
- LLMs Meet Multimodal Generation and Editing: A Survey [89.8]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成について詳しく検討する。 具体的には,本研究で活用されている手法とマルチモーダルデータセットの背景にある重要な技術要素を網羅的に検討する。 最後に、AIの安全性の進歩について包括的に議論し、新興のアプリケーションと今後の展望について調査する。
論文 参考訳(メタデータ) (Wed, 29 May 2024 17:59:20 GMT) - 実用レベルのものが出ているマルチモーダルな生成に関するサーベイ。マルチモーダルエージェントまで含む広範な内容になっている。
- 論文リストはリポジトリになっている GitHub – YingqingHe/Awesome-LLMs-meet-Multimodal-Generation: 🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).
Tool-Planner
- Tool-Planner: Dynamic Solution Tree Planning for Large Language Model with Tool Clustering [30.3]
ツールキットに基づくタスク処理フレームワークであるTool-Plannerを提案する。 Tool-Plannerは同じ関数を持つAPI関数をツールキットにグループ化する。 ツールエラーが発生した場合、言語モデルはツールキットに基づいてツールを再選択し、調整することができる。
論文 参考訳(メタデータ) (Thu, 06 Jun 2024 07:30:14 GMT) - Agenticな動作で重要なツール選定を行わせるためのフレームワークの提案。ツールをクラスタリングして扱うことが有効というのは本当かと思いつつ、似たようなAPIが乱立している状況だとそうなるのかなと思わなくはない。
- リポジトリはhttps://github.com/OceannTwT/Tool-Plannerとのことだが現時点では404
AgentGymとAGENTEVOL
- AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [117.0]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。 我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。 我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (Thu, 06 Jun 2024 15:15:41 GMT) - 複数のエージェントが動作しベンチマーク可能なフレームワークと自己進化のためのアルゴリズムの提案。
- リポジトリはGitHub – WooooDyy/AgentGym: Code and implementations for the paper “AgentGym: Evolving Large Language Model-based Agents across Diverse Environments” by Zhiheng Xi et al.
An Introduction to Vision-Language Modeling
- An Introduction to Vision-Language Modeling [128.6]
視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。 VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。 本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
論文 参考訳(メタデータ) (Mon, 27 May 2024 15:01:23 GMT) - VLMのサーベイ、であり、教科書的な内容