コンテンツへスキップ
- Emotion Detection for Misinformation: A Review [23.5]
本稿では、誤情報検出のための感情に基づく手法を包括的にレビューする。 本研究では,様々な感情,感情,姿勢に基づく特徴を用いた誤情報検出手法の解析を行う。 本稿では,大規模言語モデルに基づく感情に基づく誤情報検出において,現在進行中の課題について論じる。
論文 参考訳(メタデータ) (Wed, 1 Nov 2023 17:21:09 GMT)
- 感情を軸とした誤情報見地に関するサーベイ
- When Do Prompting and Prefix-Tuning Work? A Theory of Capabilities and Limitations [105.6]
コンテキストベースのファインチューニングメソッドは、パラメータのごく一部でフルファインチューニングのパフォーマンスにマッチすることが多いため、人気を集めている。 連続埋め込み空間は離散トークン空間よりも表現力が高いにもかかわらず、ソフトプロンプティングとプレフィックスチューニングは完全な微調整よりも厳密に表現力に乏しいことを示す。
論文 参考訳(メタデータ) (Mon, 30 Oct 2023 16:19:34 GMT)
- in-context learning, soft prompting, prefix tuningといったテクニックの限界(LLM内のスキルは引き出せるが新たなアテンションパターンが必要なタスクには対応できない)を示した論文、「it appears to be still strictly less expressive than full fine-tuning.」というのはそうなんだろうけど、実用的には本当かと思わなくもない挙動を観測したりもする。LLM内のデータが想像以上に多様なんだろうと思う。
- 「This paper formally showed that fine-tuning techniques working in embedding space, such as soft prompting and prefix-tuning, are strictly more expressive than prompting which operates in the discrete token space.」も面白い。
- Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation [42.5]
効果的な思考設計は、パフォーマンス、効率、柔軟性の3つの重要な観点を考慮すべきである。 我々は,既存の思考パラダイムのペンローズ三角形の法則に反する,思考のすべて (XoT) と呼ばれる新しい思考促進手法を導入する。
論文 参考訳(メタデータ) (Tue, 7 Nov 2023 12:30:36 GMT)
- of thoughtシリーズワイルカードの2番目(?)
- 「XOT leverages pretrained reinforcement learning and Monte Carlo Tree Search (MCTS) to incorporate external domain knowledge into thoughts, thereby enhancing LLMs’ capabilities and enabling them to generalize to unseen problems efficiently.」ということでX-of-Thoughts – arXiv最新論文の紹介 (devneko.jp)とも異なるアプローチ
- LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents [112.4]
LLaVA-Plusは、大規模マルチモーダルモデルの能力を拡張した汎用マルチモーダルアシスタントである。 事前訓練されたビジョンとビジョン言語モデルのスキルリポジトリを保持しており、ユーザの入力に基づいて関連するツールをアクティベートすることができる。
論文 参考訳(メタデータ) (Thu, 9 Nov 2023 15:22:26 GMT)
- 大規模マルチモーダルモデル LLaVA-Plus (Large Language and Vision Assistants that Plug and Learn to Use Skills)の提案。性能はLLaVAを上回る。
- リポジトリはLLaVA-Plus (llava-vl.github.io)
- Don’t Make Your LLM an Evaluation Benchmark Cheater [142.2]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。 モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。 評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (Fri, 3 Nov 2023 14:59:54 GMT)
- LLMの評価についてよくある問題と影響を示した論文。data leakの影響が検証されている点が参考になる。当然ではあるがスコアに大きく影響する。
- 「As suggestions for LLM developers, it is important to perform the data decontamination checking between pre-training data and any related data (e g , training and test sets) when using evaluation benchmarks.」は当たり前だが簡単ではない。第三者検証ではモデル構築やファインチューニングなどに使用したデータが公開されていない場合対応はかなり難しい。正しい評価は簡単ではない。