- Factcheck-GPT: End-to-End Fine-Grained Document-Level Fact-Checking and Correction of LLM Output [124.3]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。 ラベル付け手順を高速化し、ラッカーの作業を簡単にするためのアノテーションツールを設計し、構築する。 オープンドメインの文書レベルの事実性ベンチマークを3段階のクレーム,文,文書で構築する。
論文 参考訳(メタデータ) (Wed, 15 Nov 2023 14:41:57 GMT) - LLMのためのファクトチェックベンチマーク&アノテーションツールの提案。「This reveals that current mainstreaming SOTA fact-checkers still have large room to improve on verification, particularly on false claims (F1<0.53).」とのこと。
- リポジトリはGitHub – yuxiaw/Factcheck-GPT: Fact-Checking the Output of Generative Large Language Models in both Annotation and Evaluation.
Thread of Thought
- Thread of Thought Unraveling Chaotic Contexts [133.2]
思考のスレッド(ThoT)戦略は、人間の認知プロセスからインスピレーションを得ている。 実験では、他のプロンプト技術と比較して、ThoTは推論性能を著しく改善する。
論文 参考訳(メタデータ) (Wed, 15 Nov 2023 06:54:44 GMT) - プロンプトテクニック“Thread of Thought” (ThoT) strategyの提案。「chaotic context X and query Q」に対して「“[X] Q: [Q] Walk me through this context in manageable parts step by step, summarizing and analyzing as we go. A:”.」としてから回答を得るアプローチ。CoTより優れているとのこと。
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving
- On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving [26.6]
視覚言語モデル(VLM)の出現は、完全自律運転の実現における新たなフロンティアである。 本報告では,最新のVLM,Modelnamefullの総合評価と自律走行シナリオへの応用について述べる。 本研究により,既存の自律システムと比較して,シーン理解や因果推論において,モデルネームが優れた性能を示すことが明らかとなった。
論文 参考訳(メタデータ) (Thu, 9 Nov 2023 12:58:37 GMT) - GPT-4Vの自動運転への適用可能性の検討。やはり高性能。
- リポジトリはGitHub – PJLab-ADG/GPT4V-AD-Exploration: On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving
強化学習と拡散モデル
- Diffusion Models for Reinforcement Learning: A Survey [26.6]
拡散モデルは、生成モデルの顕著なクラスとして現れている。 最近の研究は、強化学習ソリューションの改善における拡散モデルの利点を示している。
論文 参考訳(メタデータ) (Thu, 2 Nov 2023 13:23:39 GMT) - 強化学習と拡散モデルに関するサーベイ。拡散モデルの役割としては大きく分けて「Diffusion models as the planner」「Diffusion models as the policy」「Diffusion models as the data synthesizer」というアプローチがあるとのこと。
- リポジトリはGitHub – apexrl/Diff4RLSurvey: This repository contains a collection of resources and papers on Diffusion Models for RL, accompanying the paper “Diffusion Models for Reinforcement Learning: A Survey”
TencentLLMEval
- TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for Human-Aligned LLMs [35.7]
大規模言語モデル(LLM)は、様々な自然言語タスクにまたがる印象的な機能を示している。 本研究では,LLMの習熟度を評価するために,多種多様な実世界の課題に対する指示に従うための包括的人間評価フレームワークを提案する。
論文 参考訳(メタデータ) (Thu, 9 Nov 2023 13:58:59 GMT) - LLMの評価に関する論文、主として中国語に関するものだがクロスリンガル・マルチリンガルという意味では日本語の評価でも参考になりそう。Figure 2: Hierarchical task tree chartのような整理も興味深い。GPT-4が一つ抜けている感はあるものの、他のモデルも猛追という感じ。
- リポジトリはGitHub – xsysigma/TencentLLMEval: TencentLLMEval is a comprehensive and extensive benchmark for artificial evaluation of large models that includes task trees, standards, data verification methods, and more.
Emotion Detection for Misinformation: A Review
- Emotion Detection for Misinformation: A Review [23.5]
本稿では、誤情報検出のための感情に基づく手法を包括的にレビューする。 本研究では,様々な感情,感情,姿勢に基づく特徴を用いた誤情報検出手法の解析を行う。 本稿では,大規模言語モデルに基づく感情に基づく誤情報検出において,現在進行中の課題について論じる。
論文 参考訳(メタデータ) (Wed, 1 Nov 2023 17:21:09 GMT) - 感情を軸とした誤情報見地に関するサーベイ
TopicGPT
- TopicGPT: A Prompt-based Topic Modeling Framework [83.4]
TopicGPTは,大規模言語モデルを用いて潜在トピックを明らかにするプロンプトベースのフレームワークである。 競合する手法と比較して、人間の分類とよく一致したトピックを生成する。 そのトピックはより解釈可能で、自然言語ラベルと関連する自由形式の記述を含むトピックを好んで、曖昧な言葉の袋を除いた。
論文 参考訳(メタデータ) (Thu, 2 Nov 2023 17:57:10 GMT) - Topic GenerationとTopic Assignmentから成るLLM版トピックモデル。解釈可能性、適応可能性に優れるとのこと。クラスタリングへの応用事例でも近しい結論になっていたはずで結果は妥当そう。
- リポジトリはGitHub – chtmp223/topicGPT: Code & Prompts for TopicGPT paper (Pham et al. 2023)
When Do Prompting and Prefix-Tuning Work? A Theory of Capabilities and Limitations
- When Do Prompting and Prefix-Tuning Work? A Theory of Capabilities and Limitations [105.6]
コンテキストベースのファインチューニングメソッドは、パラメータのごく一部でフルファインチューニングのパフォーマンスにマッチすることが多いため、人気を集めている。 連続埋め込み空間は離散トークン空間よりも表現力が高いにもかかわらず、ソフトプロンプティングとプレフィックスチューニングは完全な微調整よりも厳密に表現力に乏しいことを示す。
論文 参考訳(メタデータ) (Mon, 30 Oct 2023 16:19:34 GMT) - in-context learning, soft prompting, prefix tuningといったテクニックの限界(LLM内のスキルは引き出せるが新たなアテンションパターンが必要なタスクには対応できない)を示した論文、「it appears to be still strictly less expressive than full fine-tuning.」というのはそうなんだろうけど、実用的には本当かと思わなくもない挙動を観測したりもする。LLM内のデータが想像以上に多様なんだろうと思う。
- 「This paper formally showed that fine-tuning techniques working in embedding space, such as soft prompting and prefix-tuning, are strictly more expressive than prompting which operates in the discrete token space.」も面白い。
Everything of Thoughts
- Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation [42.5]
効果的な思考設計は、パフォーマンス、効率、柔軟性の3つの重要な観点を考慮すべきである。 我々は,既存の思考パラダイムのペンローズ三角形の法則に反する,思考のすべて (XoT) と呼ばれる新しい思考促進手法を導入する。
論文 参考訳(メタデータ) (Tue, 7 Nov 2023 12:30:36 GMT) - of thoughtシリーズワイルカードの2番目(?)
- 「XOT leverages pretrained reinforcement learning and Monte Carlo Tree Search (MCTS) to incorporate external domain knowledge into thoughts, thereby enhancing LLMs’ capabilities and enabling them to generalize to unseen problems efficiently.」ということでX-of-Thoughts – arXiv最新論文の紹介 (devneko.jp)とも異なるアプローチ
自動運転とLLM
- A Survey of Large Language Models for Autonomous Driving [67.8]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。 本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (Thu, 2 Nov 2023 07:23:33 GMT) - 自動運転におけるLLM利用のサーベイ。珍しい印象はあるが下記リポジトリを見ると関連する論文はかなり多い。
- リポジトリはGitHub – Thinklab-SJTU/Awesome-LLM4AD: A curated list of awesome LLM for Autonomous Driving resources (continually updated)