Holistic Evaluation of Text-To-Image Models

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

  • GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation [167.6]
    MM-Navigator(MM-Navigator)は、スマートフォンのGUIナビゲーションタスク用のGPT-4Vベースのエージェントである。 MM-Navigatorは、スマートフォンの画面と人間として対話し、指示を満たすためのその後の行動を決定することができる。
    論文  参考訳(メタデータ)   (Mon, 13 Nov 2023 18:53:37 GMT)
  • スマホのナビゲーションを行うエージェント。GPT-4Vを使ってマルチモーダルに対応。FinetunedなLlama2、PaLM 2と比べても高い性能。
  • リポジトリはGitHub – zzxslp/MM-Navigator 

Factcheck-GPT

  • Factcheck-GPT: End-to-End Fine-Grained Document-Level Fact-Checking and Correction of LLM Output [124.3]
    本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。 ラベル付け手順を高速化し、ラッカーの作業を簡単にするためのアノテーションツールを設計し、構築する。 オープンドメインの文書レベルの事実性ベンチマークを3段階のクレーム,文,文書で構築する。
    論文  参考訳(メタデータ)   (Wed, 15 Nov 2023 14:41:57 GMT)
  • LLMのためのファクトチェックベンチマーク&アノテーションツールの提案。「This reveals that current mainstreaming SOTA fact-checkers still have large room to improve on verification, particularly on false claims (F1<0.53).」とのこと。
  • リポジトリはGitHub – yuxiaw/Factcheck-GPT: Fact-Checking the Output of Generative Large Language Models in both Annotation and Evaluation.

Thread of Thought

  • Thread of Thought Unraveling Chaotic Contexts [133.2]
    思考のスレッド(ThoT)戦略は、人間の認知プロセスからインスピレーションを得ている。 実験では、他のプロンプト技術と比較して、ThoTは推論性能を著しく改善する。
    論文  参考訳(メタデータ)   (Wed, 15 Nov 2023 06:54:44 GMT)
  • プロンプトテクニック“Thread of Thought” (ThoT) strategyの提案。「chaotic context X and query Q」に対して「“[X] Q: [Q] Walk me through this context in manageable parts step by step, summarizing and analyzing as we go. A:”.」としてから回答を得るアプローチ。CoTより優れているとのこと。

On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

強化学習と拡散モデル

TencentLLMEval

Emotion Detection for Misinformation: A Review

  • Emotion Detection for Misinformation: A Review [23.5]
    本稿では、誤情報検出のための感情に基づく手法を包括的にレビューする。 本研究では,様々な感情,感情,姿勢に基づく特徴を用いた誤情報検出手法の解析を行う。 本稿では,大規模言語モデルに基づく感情に基づく誤情報検出において,現在進行中の課題について論じる。
    論文  参考訳(メタデータ)   (Wed, 1 Nov 2023 17:21:09 GMT)
  • 感情を軸とした誤情報見地に関するサーベイ

TopicGPT

  • TopicGPT: A Prompt-based Topic Modeling Framework [83.4]
    TopicGPTは,大規模言語モデルを用いて潜在トピックを明らかにするプロンプトベースのフレームワークである。 競合する手法と比較して、人間の分類とよく一致したトピックを生成する。 そのトピックはより解釈可能で、自然言語ラベルと関連する自由形式の記述を含むトピックを好んで、曖昧な言葉の袋を除いた。
    論文  参考訳(メタデータ)   (Thu, 2 Nov 2023 17:57:10 GMT)
  • Topic GenerationとTopic Assignmentから成るLLM版トピックモデル。解釈可能性、適応可能性に優れるとのこと。クラスタリングへの応用事例でも近しい結論になっていたはずで結果は妥当そう。
  • リポジトリはGitHub – chtmp223/topicGPT: Code & Prompts for TopicGPT paper (Pham et al. 2023)

When Do Prompting and Prefix-Tuning Work? A Theory of Capabilities and Limitations

  • When Do Prompting and Prefix-Tuning Work? A Theory of Capabilities and Limitations [105.6]
    コンテキストベースのファインチューニングメソッドは、パラメータのごく一部でフルファインチューニングのパフォーマンスにマッチすることが多いため、人気を集めている。 連続埋め込み空間は離散トークン空間よりも表現力が高いにもかかわらず、ソフトプロンプティングとプレフィックスチューニングは完全な微調整よりも厳密に表現力に乏しいことを示す。
    論文  参考訳(メタデータ)   (Mon, 30 Oct 2023 16:19:34 GMT)
  • in-context learning, soft prompting, prefix tuningといったテクニックの限界(LLM内のスキルは引き出せるが新たなアテンションパターンが必要なタスクには対応できない)を示した論文、「it appears to be still strictly less expressive than full fine-tuning.」というのはそうなんだろうけど、実用的には本当かと思わなくもない挙動を観測したりもする。LLM内のデータが想像以上に多様なんだろうと思う。
  • 「This paper formally showed that fine-tuning techniques working in embedding space, such as soft prompting and prefix-tuning, are strictly more expressive than prompting which operates in the discrete token space.」も面白い。