Video Understanding with Large Language Models: A Survey

  • Video Understanding with Large Language Models: A Survey [101.9]
    本調査は,Large Language Models (LLMs) のパワーを活用した映像理解の最近の進歩を概観する。 LLMベースのビデオエージェント, Vid-LLMs Pretraining, Vid-LLMs Instruction Tuning, Hybrid Methods である。 この調査では、Vid-LLMの様々な領域にわたる拡張的な応用を探求し、その顕著なスケーラビリティと汎用性を示している。
    論文  参考訳(メタデータ)   (Fri, 29 Dec 2023 01:56:17 GMT)
  • LLMとの組み合わせで成果が多く出ているVideo Understandingのサーベイ。初期の手法についても少し記載があるが、最近の発展がすごいこともわかる。
  • リポジトリはyunlong10/Awesome-LLMs-for-Video-Understanding: 🔥🔥🔥Latest Papers, Codes and Datasets on Vid-LLMs. (github.com)

DIALIGHT

  • DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models [76.8]
    DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。 ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。 評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
    論文  参考訳(メタデータ)   (Thu, 4 Jan 2024 11:27:48 GMT)
  • 多言語に対応したタスク志向対話システムを開発するためのツールキットの提案。PLMのfine tuning、ICLに対応。mT5 + fine tuningがGPT-3.5 + In-context learningより優れていることも多いのが興味深い。
  • リポジトリはhttps://github.com/cambridgeltl/e2e_tod_toolkitだが現時点ではNotFound

Sports-QA

  • Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports [90.8]
    スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。 Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。 質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
    論文  参考訳(メタデータ)   (Wed, 3 Jan 2024 02:22:34 GMT)
  • スポーツのビデオに対するQAデータセットの提案。スポーツを対象に細部を聞く質問やプロフェッショナルな選手の行動の因果関係を問うような難しい(実践的な)QAとなっているとのこと。
  • The data and codes will be released.とのこと。

Understanding LLMs: A Comprehensive Overview from Training to Inference

  • Understanding LLMs: A Comprehensive Overview from Training to Inference [52.7]
    大規模言語モデルの低コストなトレーニングと展開は、将来の開発トレンドを表している。 トレーニングに関する議論には、データ前処理、トレーニングアーキテクチャ、事前トレーニングタスク、並列トレーニング、モデル微調整に関連する関連コンテンツなど、さまざまな側面が含まれている。 推論の面では、モデル圧縮、並列計算、メモリスケジューリング、構造最適化などのトピックを取り上げている。
    論文  参考訳(メタデータ)   (Thu, 4 Jan 2024 02:43:57 GMT)
  • LLMの作り方を一歩踏み込んで知りたいときによい資料。

Chain-of-Table

  • Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding [79.9]
    そこで我々は、中間思考のプロキシとして、図表データを推論チェーンで明示的に使用するChain-of-Tableフレームワークを提案する。 Chain-of-TableはWikiTQ、FeTaQA、TabFactベンチマークで最新のパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Tue, 9 Jan 2024 07:46:26 GMT)
  • 表形式データが含まれる状況下でのプロンプトの工夫、Chainの名前がついている通りテーブル操作を続けていくアプローチ
  • 一般的に効果のある今までのProgram-aidedなアプローチより優れた性能とのこと

Effective pruning of web-scale datasets based on complexity of concept clusters 

  • Effective pruning of web-scale datasets based on complexity of concept clusters [48.1]
    本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。 高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減し、より高いパフォーマンスをもたらす可能性があることに気付きました。 DataComp Mediumのベンチマークでは,38のタスクに対して,最先端のImageNetゼロショット精度と競合平均ゼロショット精度を実現している。
    論文  参考訳(メタデータ)   (Tue, 9 Jan 2024 14:32:24 GMT)
  • データセットの効果的なフィルタリング方法の提案。LAION datasetで検証。
  • deduplication, CLIP-score filtering, Density-Based-Pruningのパイプラインでembeddingを効果的に使うアプローチ

Leveraging Print Debugging to Improve Code Generation in Large Language Models

  • Leveraging Print Debugging to Improve Code Generation in Large Language Models [63.6]
    大規模言語モデル(LLM)はコード生成タスクにおいて大きな進歩を遂げた。 しかし、複雑なデータ構造やアルゴリズムによるプログラミング問題に対処する彼らのパフォーマンスは、依然として準最適である。 そこで本稿では,LLM のデバッグを “print debugging” 手法でガイドする,コンテキスト内学習手法を提案する。
    論文  参考訳(メタデータ)   (Wed, 10 Jan 2024 18:37:59 GMT)
  • LLMを用いたコード生成時にデバッグ用のprintを埋め込んでもらうと性能が上がるという報告。CausalLMの動きから考えて妥当なようにも思うし、不思議なようにも思う。

SynCDR

  • SynCDR : Training Cross Domain Retrieval Models with Synthetic Data [90.5]
    クロスドメイン検索では、同じ意味圏から2つの視覚領域にまたがるイメージを識別するためにモデルが必要である。 本稿では、これらの欠落したカテゴリの例をドメイン間で補うために合成データを生成するための簡単な解を提案する。 我々は、この翻訳のために訓練された2つのドメインと、プロンプトを介して大規模に訓練されたテキストから画像への拡散モデルを使用するドメインを比較した。
    論文  参考訳(メタデータ)   (Sun, 31 Dec 2023 08:06:53 GMT)
  • クロスドメイン検索へのデータ合成の応用
  • リポジトリはsamarth4149/SynCDR: Code for SynCDR (github.com)

AMIE: Articulate Medical Intelligence Explorer

  • Towards Conversational Diagnostic AI [32.8]
    本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。 AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。 AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 04:25:06 GMT)
  • LLMの医療対話への応用、primary care physiciansと比較し高い性能を発揮。ランダム化、二重盲検で評価していて信頼性も高そう。
  • 「Translating from this limited scope of experimental simulated history-taking and diagnostic dialogue, towards real-world tools for people and those who provide care for them, requires significant additional research and development to ensure the safety, reliability, fairness, efficacy, and privacy of the technology.」と保守的な記載はあるもののレベルが高くなっていて驚き。

Language Models Understand Numbers, at Least Partially

  • Language Models Understand Numbers, at Least Partially [32.5]
    数学的問題における基本要素となる数について,言語モデルが理解しているかどうかを考察する。 本研究では,付加問題を含む合成データセットを構築し,線形プローブを用いてモデルの隠れ状態から入力番号を読み取る。 予備研究は、言語モデルが数の部分的理解を示すことを示唆している。
    論文  参考訳(メタデータ)   (Mon, 8 Jan 2024 08:54:22 GMT)
  • LLMが数値を理解しているか?の分析。利用している立場だと怪しいと思っていたが、「Experimental results prove that LLMs do have a rough estimation of input numbers in their hidden states, but the compression process may not be lossless.」と完全ではないが肯定的な結果のよう。「LLMs exhibit the ability to utilize compressed numbers to perform arithmetic calculations, and the ability to perform calculations is explicitly related to the scale of models.」というのもとても興味深い。