- Large Language Model Driven Recommendation [34.5]
言語主導のレコメンデーションの出現は、リコメンデーションのための自然言語(NL)インタラクションの使用を解放した。 この章では、LLMの一般NL能力が、高度にパーソナライズされたRSを構築する新しい機会を導く方法について論じる。
論文 参考訳(メタデータ) (Tue, 20 Aug 2024 15:36:24 GMT) - LLMを用いたレコメンデーション。Surveyというよりは教科書の一部という感じ。
SurveySum
- SurveySum: A Dataset for Summarizing Multiple Scientific Articles into a Survey Section [7.4]
本稿では,複数の学術論文を要約した新しいデータセットについて紹介する。 筆者らの貢献は,(1)ドメイン固有の要約ツールのギャップに対処する新しいデータセットであるサーベイサム,(2)科学論文を1つのセクションにまとめる2つの特定のパイプライン,(3)これらのパイプラインの評価を複数の指標を用いて比較することである。
論文 参考訳(メタデータ) (Thu, 29 Aug 2024 11:13:23 GMT) - 学術論文の要約データセット
- リポジトリはunicamp-dl/SurveySum · Datasets at Hugging Face
要約といえば段階を踏んだ方が有効といわれているが、上記データセットでも同様の傾向があるのだろうか。
- Prompt Chaining or Stepwise Prompt? Refinement in Text Summarization [31.8]
Prompt ChainingとStepwise Promptの2つの戦略は反復的なプロセスを実行するように設計されている。 本稿では,これら2つの手法をテキスト要約の文脈で検証し,比較することを目的とした。 実験結果から, プロンプト連鎖法によりより良好な結果が得られることが示された。
論文 参考訳(メタデータ) (Sat, 01 Jun 2024 17:28:38 GMT)
Re-Thinking Process Mining in the AI-Based Agents Era
- Re-Thinking Process Mining in the AI-Based Agents Era [39.6]
大規模言語モデル(LLM)は強力な対話インタフェースとして登場し、プロセスマイニング(PM)タスクにおけるその応用は有望な結果を示している。 本稿では,LLMにおけるPMの有効性を高めるために,AIベースのエージェント(AgWf)パラダイムを活用することを提案する。 我々はAgWfの様々な実装とAIベースのタスクの種類について検討する。
論文 参考訳(メタデータ) (Wed, 14 Aug 2024 10:14:18 GMT) - LLM時代のプロセスマイニング、GitHub – crewAIInc/crewAI: Framework for orchestrating role-playing, autonomous AI agents. By fostering collaborative intelligence, CrewAI empowers agents to work together seamlessly, tackling complex tasks.ベースのトライアルがGitHub – fit-alessandro-berti/agents-trial: agents-trialにある。
Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search
- Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search [32.7]
本手法はモンテカルロ木探索とLLMに基づく反射による自己再生シミュレーションにより品質フィードバックを収集する。 本手法は,従来の強化学習手法よりも優れた性能でエージェントを訓練する上で有効であることを示す。
論文 参考訳(メタデータ) (Tue, 20 Aug 2024 08:22:04 GMT) - 「 (1) reflection and idea generation step and (2) the strategy improvement step」を繰り返しながら自己改善していく手法の提案。有効そう。
- リポジトリはStrategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search (llm-strategist.github.io)
TableBench
- TableBench: A Comprehensive and Complex Benchmark for Table Question Answering [33.6]
本稿では,産業シナリオにおける大規模言語モデル(LLM)の適用について検討する。 本稿では,テーブル質問応答機能(TableQA)の4大カテゴリに18のフィールドを含む,包括的で複雑なベンチマークTableBenchを提案する。 TableBenchで実施された大規模な実験は、オープンソースのLLMとプロプライエタリなLLMの両方に、現実世界の要求を満たすための大きな改善の余地があることを示唆している。
論文 参考訳(メタデータ) (Sat, 17 Aug 2024 11:40:10 GMT) - TableQAのベンチマーク。様々な手法、fine tuningベースの手法など評価がしっかりと行われて参考になる。Textual Chain of Thought (TCoT), Symbolic Chain of Thought (SCoT), Program of Thought (PoT)の各モデルへの影響が面白く、GPT-4 turboには有効だが、GPT-4oだと逆効果になっている。全体的にまだ人間のパフォーマンスには及んでいなさそう。
- リポジトリはTableBench Homepage
Computer Vision Model Compression Techniques for Embedded Systems: A Survey
- Computer Vision Model Compression Techniques for Embedded Systems: A Survey [75.4]
本稿では,コンピュータビジョンタスクに適用される主モデル圧縮技術について述べる。 本稿では,圧縮サブ領域の特性について述べるとともに,異なるアプローチを比較し,最適な手法を選択する方法について論じる。 初期の実装課題を克服する上で、研究者や新しい実践者を支援するためのコードも共有しています。
論文 参考訳(メタデータ) (Thu, 15 Aug 2024 16:41:55 GMT) - CVを対象としたモデル圧縮技術のサーベイ
- リポジトリはGitHub – venturusbr/cv-model-compression、サンプルコードが提供されているサーベイは珍しい印象
Performance Law of Large Language Models
- Performance Law of Large Language Models [58.3]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。 性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文 参考訳(メタデータ) (Mon, 19 Aug 2024 11:09:12 GMT) - 計算式でMMLUスコアを直接予測、キーとなるのは「• The number of layers N • The hidden size h • The intermediate size d of FFN • The size of training data T (trillion tokens) • The model size S (billion parameters)」とのこと
- 面白いけどほんまかいな
- Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.3]
生成したサンプルの数を増やすことで、別の軸として推論計算を探索する。 すべての回答を自動的に検証できるコーディングや形式証明のようなドメインでは、カバレッジの増加は直接的にパフォーマンスの向上に変換される。 多くの世代から正しいサンプルを同定することは、自動検証のない領域における将来の研究にとって重要な方向である。
論文 参考訳(メタデータ) (Wed, 31 Jul 2024 17:57:25 GMT) - 計算能力という面では、推論側でのScalingという話も
- (この辺は良質な合成データとの関係性も気になる)
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
- mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models [71.4]
本稿では,多目的なマルチモーダル大言語モデルであるmPLUG-Owl3を提案する。 具体的には、視覚と言語を共通の言語誘導意味空間に効率的に統合する新しいハイパーアテンションブロックを提案する。
論文 参考訳(メタデータ) (Tue, 13 Aug 2024 08:10:32 GMT) - mPLUG-Owlのver 3
- リポジトリはGitHub – X-PLUG/mPLUG-Owl: mPLUG-Owl: The Powerful Multi-modal Large Language Model Family
JPEG-LM: LLMs as Image Generators with Canonical Codec Representations
- JPEG-LM: LLMs as Image Generators with Canonical Codec Representations [51.1]
離散化は、画像やビデオのような連続したデータを離散トークンとして表現する。 画像やビデオを識別する一般的な方法は、生のピクセル値のモデリングである。 本研究では,画像やビデオを直接,標準コーデック(JPEG,AVC/H.264)を介してコンピュータ上に保存した圧縮ファイルとしてモデル化することを提案する。
論文 参考訳(メタデータ) (Wed, 21 Aug 2024 00:24:53 GMT) - JPEGを直接扱えるL(?)Mの提案。「For generality, our models also do not use any vision-specific modules like convolutions or 2D positional embeddings, potentially making the task more challenging.」、「However, we observe that conventional, vanilla language modeling surprisingly conquers these challenges without special designs as training goes (e g , JPEG-LM generates realistic images barely with any corrupted JPEG patches).」とのこと。アーキテクチャは7B Llama-2 model、本当に強力。
Visual Agents as Fast and Slow Thinkers
- Visual Agents as Fast and Slow Thinkers [88.7]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。 FaSTは、システム1/2モードを動的に選択するためにスイッチアダプタを使用し、異なるタスクの複雑さに対する問題解決アプローチを調整している。 モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文 参考訳(メタデータ) (Fri, 16 Aug 2024 17:44:02 GMT) - かの有名なFast and SlowをMLLMエージェントに適用。「the concepts of System 1 (fast, intuitive) and System 2 (slow, deliberate) thinking into visual agents, aiming to enhance their reasoning and decision-making capabilities.」というコンセプト
- 効果があったとするが公平な比較になっているんだろうかという疑問がなくはない。