TableBench

  • TableBench: A Comprehensive and Complex Benchmark for Table Question Answering [33.6]
    本稿では,産業シナリオにおける大規模言語モデル(LLM)の適用について検討する。 本稿では,テーブル質問応答機能(TableQA)の4大カテゴリに18のフィールドを含む,包括的で複雑なベンチマークTableBenchを提案する。 TableBenchで実施された大規模な実験は、オープンソースのLLMとプロプライエタリなLLMの両方に、現実世界の要求を満たすための大きな改善の余地があることを示唆している。
    論文  参考訳(メタデータ)   (Sat, 17 Aug 2024 11:40:10 GMT)
  • TableQAのベンチマーク。様々な手法、fine tuningベースの手法など評価がしっかりと行われて参考になる。Textual Chain of Thought (TCoT), Symbolic Chain of Thought (SCoT), Program of Thought (PoT)の各モデルへの影響が面白く、GPT-4 turboには有効だが、GPT-4oだと逆効果になっている。全体的にまだ人間のパフォーマンスには及んでいなさそう。
  • リポジトリはTableBench Homepage

Computer Vision Model Compression Techniques for Embedded Systems: A Survey

  • Computer Vision Model Compression Techniques for Embedded Systems: A Survey [75.4]
    本稿では,コンピュータビジョンタスクに適用される主モデル圧縮技術について述べる。 本稿では,圧縮サブ領域の特性について述べるとともに,異なるアプローチを比較し,最適な手法を選択する方法について論じる。 初期の実装課題を克服する上で、研究者や新しい実践者を支援するためのコードも共有しています。
    論文  参考訳(メタデータ)   (Thu, 15 Aug 2024 16:41:55 GMT)
  • CVを対象としたモデル圧縮技術のサーベイ
  • リポジトリはGitHub – venturusbr/cv-model-compression、サンプルコードが提供されているサーベイは珍しい印象

Performance Law of Large Language Models

  • Performance Law of Large Language Models [58.3]
    性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。 性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
    論文  参考訳(メタデータ)   (Mon, 19 Aug 2024 11:09:12 GMT)
  • 計算式でMMLUスコアを直接予測、キーとなるのは「• The number of layers N • The hidden size h • The intermediate size d of FFN • The size of training data T (trillion tokens) • The model size S (billion parameters)」とのこと
  • 面白いけどほんまかいな
  • Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.3]
    生成したサンプルの数を増やすことで、別の軸として推論計算を探索する。 すべての回答を自動的に検証できるコーディングや形式証明のようなドメインでは、カバレッジの増加は直接的にパフォーマンスの向上に変換される。 多くの世代から正しいサンプルを同定することは、自動検証のない領域における将来の研究にとって重要な方向である。
    論文  参考訳(メタデータ)   (Wed, 31 Jul 2024 17:57:25 GMT)
  • 計算能力という面では、推論側でのScalingという話も
  • (この辺は良質な合成データとの関係性も気になる)