Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey 

  • Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey [42.1]
    我々は,データセット,タスク指向手法,普遍的基礎モデルの観点から,医療マルチモーダル学習の現状を包括的に調査する。 我々は、データや技術からパフォーマンス、倫理に至るまで、医療における高度な技術の本当の影響を探るため、5つの課題から提案された質問について議論する。 答えは、現在の技術は普遍的な知性を達成しておらず、実行すべき重要な道程がまだ残っているということだ。
    論文  参考訳(メタデータ)   (Fri, 23 Aug 2024 07:31:01 GMT)
  • マルチモーダルな医療モデルの現状についてサーベイした論文。universal intellegenceというタイトルが印象深い。現実的にはまだまだとはいえ、このような言葉がつかえるようになってきたのは大きな進歩のように思う。
  • 「The answer is that current technologies have NOT achieved universal intelligence and there remains a significant journey to undertake.」と結論。
  • リポジトリはGitHub – DeepReasoning/aihealth

LogicGame

  • LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.5]
    大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。 LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
    論文  参考訳(メタデータ)   (Wed, 28 Aug 2024 13:16:41 GMT)
  • ルールを用いた推論能力について、計画と実行の軸で評価するベンチマーク
  • GPT-4 turboとGPT-4o、Claude 3.5 sonnetの優秀さが目立つ

Large Language Model Driven Recommendation

  • Large Language Model Driven Recommendation [34.5]
    言語主導のレコメンデーションの出現は、リコメンデーションのための自然言語(NL)インタラクションの使用を解放した。 この章では、LLMの一般NL能力が、高度にパーソナライズされたRSを構築する新しい機会を導く方法について論じる。
    論文  参考訳(メタデータ)   (Tue, 20 Aug 2024 15:36:24 GMT)
  • LLMを用いたレコメンデーション。Surveyというよりは教科書の一部という感じ。

SurveySum

  • SurveySum: A Dataset for Summarizing Multiple Scientific Articles into a Survey Section [7.4]
    本稿では,複数の学術論文を要約した新しいデータセットについて紹介する。 筆者らの貢献は,(1)ドメイン固有の要約ツールのギャップに対処する新しいデータセットであるサーベイサム,(2)科学論文を1つのセクションにまとめる2つの特定のパイプライン,(3)これらのパイプラインの評価を複数の指標を用いて比較することである。
    論文  参考訳(メタデータ)   (Thu, 29 Aug 2024 11:13:23 GMT)
  • 学術論文の要約データセット
  • リポジトリはunicamp-dl/SurveySum · Datasets at Hugging Face

要約といえば段階を踏んだ方が有効といわれているが、上記データセットでも同様の傾向があるのだろうか。

  • Prompt Chaining or Stepwise Prompt? Refinement in Text Summarization [31.8]
    Prompt ChainingとStepwise Promptの2つの戦略は反復的なプロセスを実行するように設計されている。 本稿では,これら2つの手法をテキスト要約の文脈で検証し,比較することを目的とした。 実験結果から, プロンプト連鎖法によりより良好な結果が得られることが示された。
    論文  参考訳(メタデータ)   (Sat, 01 Jun 2024 17:28:38 GMT)

Re-Thinking Process Mining in the AI-Based Agents Era 

Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search

  • Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search [32.7]
    本手法はモンテカルロ木探索とLLMに基づく反射による自己再生シミュレーションにより品質フィードバックを収集する。 本手法は,従来の強化学習手法よりも優れた性能でエージェントを訓練する上で有効であることを示す。
    論文  参考訳(メタデータ)   (Tue, 20 Aug 2024 08:22:04 GMT)
  • 「 (1) reflection and idea generation step and (2) the strategy improvement step」を繰り返しながら自己改善していく手法の提案。有効そう。
  • リポジトリはStrategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search (llm-strategist.github.io)

TableBench

  • TableBench: A Comprehensive and Complex Benchmark for Table Question Answering [33.6]
    本稿では,産業シナリオにおける大規模言語モデル(LLM)の適用について検討する。 本稿では,テーブル質問応答機能(TableQA)の4大カテゴリに18のフィールドを含む,包括的で複雑なベンチマークTableBenchを提案する。 TableBenchで実施された大規模な実験は、オープンソースのLLMとプロプライエタリなLLMの両方に、現実世界の要求を満たすための大きな改善の余地があることを示唆している。
    論文  参考訳(メタデータ)   (Sat, 17 Aug 2024 11:40:10 GMT)
  • TableQAのベンチマーク。様々な手法、fine tuningベースの手法など評価がしっかりと行われて参考になる。Textual Chain of Thought (TCoT), Symbolic Chain of Thought (SCoT), Program of Thought (PoT)の各モデルへの影響が面白く、GPT-4 turboには有効だが、GPT-4oだと逆効果になっている。全体的にまだ人間のパフォーマンスには及んでいなさそう。
  • リポジトリはTableBench Homepage

Computer Vision Model Compression Techniques for Embedded Systems: A Survey

  • Computer Vision Model Compression Techniques for Embedded Systems: A Survey [75.4]
    本稿では,コンピュータビジョンタスクに適用される主モデル圧縮技術について述べる。 本稿では,圧縮サブ領域の特性について述べるとともに,異なるアプローチを比較し,最適な手法を選択する方法について論じる。 初期の実装課題を克服する上で、研究者や新しい実践者を支援するためのコードも共有しています。
    論文  参考訳(メタデータ)   (Thu, 15 Aug 2024 16:41:55 GMT)
  • CVを対象としたモデル圧縮技術のサーベイ
  • リポジトリはGitHub – venturusbr/cv-model-compression、サンプルコードが提供されているサーベイは珍しい印象

Performance Law of Large Language Models

  • Performance Law of Large Language Models [58.3]
    性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。 性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
    論文  参考訳(メタデータ)   (Mon, 19 Aug 2024 11:09:12 GMT)
  • 計算式でMMLUスコアを直接予測、キーとなるのは「• The number of layers N • The hidden size h • The intermediate size d of FFN • The size of training data T (trillion tokens) • The model size S (billion parameters)」とのこと
  • 面白いけどほんまかいな
  • Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.3]
    生成したサンプルの数を増やすことで、別の軸として推論計算を探索する。 すべての回答を自動的に検証できるコーディングや形式証明のようなドメインでは、カバレッジの増加は直接的にパフォーマンスの向上に変換される。 多くの世代から正しいサンプルを同定することは、自動検証のない領域における将来の研究にとって重要な方向である。
    論文  参考訳(メタデータ)   (Wed, 31 Jul 2024 17:57:25 GMT)
  • 計算能力という面では、推論側でのScalingという話も
  • (この辺は良質な合成データとの関係性も気になる)

mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models