GPT-4V, LLaVA-1.5

    GPT-4Vの登場でマルチモーダルモデルの活用が一気に進む感がある。さらにオープンな取り組みも進んでおり期待が大きい。

    • The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.4]
      大規模マルチモーダルモデル(LMM)は、より強力な汎用知性を達成するために、視覚的理解などの多感覚スキルを備えた大規模言語モデルを拡張する。 本稿では,GPT-4Vの能力の質と汎用性を調査するテストサンプルを含む,GPT-4Vが実行可能な興味深いタスクに焦点を当てた。 GPT-4Vの任意のインターリーブされたマルチモーダル入力処理における前例のない能力と、その能力の汎用性は、GPT-4Vを強力なマルチモーダルジェネラリストシステムにする。
      論文  参考訳(メタデータ)   (Fri, 29 Sep 2023 17:34:51 GMT)
    • GPT-4V(ision)のMSのよる評価。Visionの統合は自然な拡張であり、今までも研究され続けてきた分野ではあるが、GPT-4Vは強力なレベルになっているように見える。

    Analogical Prompting

    • Large Language Models as Analogical Reasoners [156.0]
      アナロジカル・プロンプティング(Analogical Prompting)は、大規模言語モデルの推論プロセスを自動的にガイドするように設計されている。 類推的推論にインスパイアされた我々のアプローチは、文脈における関連する経験や知識を自己生成するよう言語モデルに促す。 実験の結果,本手法は様々な推論タスクにおいて,0ショットのCoTと手動のCoTよりも優れていた。
      論文  参考訳(メタデータ)   (Tue, 3 Oct 2023 00:57:26 GMT)
    • 過去の経験を思い出すようにPromptを構成、高い性能を達成とのこと。5 shot CoTを超えているのに驚き。LLM内の知識はどんな量なんだろう。
    • 「Generating relevant and diverse exemplars is important」、「 Single-pass vs. independent exemplar generation: An alternative approach is to independently generate exemplars by separately sampling them from the LLM and then re-prompt the LLM with all the exemplars.」に対し、「single-pass prompt approach achieves comparable performance」、「Through experimentation, we have found that generating K = 3 to 5 exemplars works the best」などFindingsも興味深い。

    VidChapters-7M

    • VidChapters-7M: Video Chapters at Scale [110.2]
      VidChapters-7Mは、合計で7M章を含む817万のユーザチャプター付きビデオのデータセットである。 VidChapters-7Mは、ユーザーが注釈を付けた章をスクラップすることで、オンラインビデオから自動的にスケーラブルな方法で作成される。 VidChapters-7Mの事前トレーニングは、ゼロショットと微調整の両方で、高密度な映像キャプションタスクに適していることを示す。
      論文  参考訳(メタデータ)   (Mon, 25 Sep 2023 08:38:11 GMT)
    • ビデオチャプタ生成を対象としたデータセット
    • プロジェクトサイトはVidChapters-7M: Video Chapters at Scale (antoyang.github.io)

    KICT: Knowledgeable InContext Tuning framework

    • Boosting In-Context Learning with Factual Knowledge [39.9]
      In-Context Learning (ICL) over Large Language Model (LLMs) は、いくつかのトレーニング例を条件に、これまで見つからなかったタスクを解決することを目的としている。 本稿では、3つの中核面におけるICLの性能にfactual knowledgeが不可欠であることを実証する。 In-Context Tuning (KICT) フレームワークを導入し,ICLの性能向上を図る。
      論文  参考訳(メタデータ)   (Tue, 26 Sep 2023 09:06:39 GMT)
    • ICLの性能をさらに向上させる新しいチューニングフレームワークの提案
    • In context learningは強力であるので、このような研究の方向性も有望だと思う。

    A Comprehensive Review on Financial Explainable AI

    • A Comprehensive Review on Financial Explainable AI [29.2]
      金融の文脈における深層学習モデルの説明可能性向上を目的とした手法の比較調査を行う。 説明可能なAI手法のコレクションは,その特性に応じて分類する。 我々は、説明可能なAI手法を採用する際の懸念と課題を、適切かつ重要と考えられる今後の方向性とともにレビューする。
      論文  参考訳(メタデータ)   (Thu, 21 Sep 2023 10:30:49 GMT)
    • 金融におけるXAIのサーベイ、状況を概観するのに良い。金融分野へのXAIは必要性もありかなり導入されている印象がある。

    GPT-Fathom, NLPBench

    • NLPBench: Evaluating Large Language Models on Solving NLP Problems [41.0]
      大規模言語モデル(LLM)は、自然言語処理(NLP)の能力を高めることを約束している。 イェール大学の最終試験から得られた様々なNLPトピックにまたがる378の大学レベルのNLP質問を含む,ユニークなベンチマークデータセットであるNLPBenchを提案する。 GPT-3.5/4, PaLM-2, LLAMA-2などのLCMに着目した評価では, チェーン・オブ・シークレット(CoT)やツリー・オブ・シークレット(ToT)といった先進的なプロンプト戦略が取り入れられている。
      論文  参考訳(メタデータ)   (Wed, 27 Sep 2023 13:02:06 GMT)
    • NLPコースの試験から作られたデータセット
    • モデル×手法(Zero/Few shot, CoT, ToT)の結果が興味深い。
    • GitHub – LinxinS97/NLPBench: NLPBench: Evaluating NLP-Related Problem-solving Ability in Large Language Models

    Fin-Fact

    • Fin-Fact: A Benchmark Dataset for Multimodal Financial Fact Checking and Explanation Generation [31.2]
      Fin-Factは金融ドメイン内のマルチモーダル事実チェックのためのベンチマークデータセットである。 専門的なファクトチェッカーアノテーションと正当化が含まれ、専門知識と信頼性を提供する。
      論文  参考訳(メタデータ)   (Fri, 15 Sep 2023 22:24:00 GMT)
    • 金融分野のファクトチェッキング用データセット&ベンチマーク
    • リポジトリはGitHub – IIT-DM/Fin-Fact: A Benchmark Dataset for Multimodal Scientific Fact Checking、MITライセンスのよう

    AUTOCALIBRATE / 人間の好みに合わせたLLM利用の評価器

    • Calibrating LLM-Based Evaluator [92.2]
      マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。 人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。 複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
      論文  参考訳(メタデータ)   (Sat, 23 Sep 2023 08:46:11 GMT)
    • LLMを活用した評価器を人間の評価に寄せる手法を提案。人が評価したデータをもとに評価基準をLLMに書かせて、良い基準を選択&ICLというプロセス。
    • LLMを人っぽく使っている点が非常に興味深い。

    LMSYS-Chat-1M

    • LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [76.0]
      LMSYS-Chat-1Mは,25の最先端の大規模言語モデルと100万の現実世界の会話を含む大規模データセットである。 このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
      論文  参考訳(メタデータ)   (Thu, 21 Sep 2023 12:13:55 GMT)
    • LMSYSによる大規模対話データセット。lmsys/lmsys-chat-1m · Datasets at Hugging Faceからアクセス可能。
    • 「Although most conversations are with Vicuna, we think the prompts alone are already highly valuable and one can use other models to regenerate answers if needed.」とのこと。言語は英語が圧倒的に多く、ポルトガル語、ロシア語、中国語、スペイン語と続く。unknownを除き日本語は9位?

    LLaVA-RLHF

    • Aligning Large Multimodal Models with Factually Augmented RLHF [176.5]
      大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「hallucination」をもたらす。 テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。 本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。 提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
      論文  参考訳(メタデータ)   (Mon, 25 Sep 2023 20:59:33 GMT)
    • マルチモーダルモデルに対するRLHFとしてFactually Augmented RLHF (Fact-RLHF) を提案。モデルが公開されているのが興味深くGPT-4V(GPT-4V(ision) system card (openai.com))と比較してみたところ。
    • リポジトリはLLaVA-RLHF。モデルはzhiqings/LLaVA-RLHF-13b-v1.5-336 · Hugging Face( Apache License 2.0)など。