- Fin-Fact: A Benchmark Dataset for Multimodal Financial Fact Checking and Explanation Generation [31.2]
Fin-Factは金融ドメイン内のマルチモーダル事実チェックのためのベンチマークデータセットである。 専門的なファクトチェッカーアノテーションと正当化が含まれ、専門知識と信頼性を提供する。
論文 参考訳(メタデータ) (Fri, 15 Sep 2023 22:24:00 GMT) - 金融分野のファクトチェッキング用データセット&ベンチマーク
- リポジトリはGitHub – IIT-DM/Fin-Fact: A Benchmark Dataset for Multimodal Scientific Fact Checking、MITライセンスのよう
AUTOCALIBRATE / 人間の好みに合わせたLLM利用の評価器
- Calibrating LLM-Based Evaluator [92.2]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。 人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。 複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (Sat, 23 Sep 2023 08:46:11 GMT) - LLMを活用した評価器を人間の評価に寄せる手法を提案。人が評価したデータをもとに評価基準をLLMに書かせて、良い基準を選択&ICLというプロセス。
- LLMを人っぽく使っている点が非常に興味深い。
LMSYS-Chat-1M
- LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [76.0]
LMSYS-Chat-1Mは,25の最先端の大規模言語モデルと100万の現実世界の会話を含む大規模データセットである。 このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
論文 参考訳(メタデータ) (Thu, 21 Sep 2023 12:13:55 GMT) - LMSYSによる大規模対話データセット。lmsys/lmsys-chat-1m · Datasets at Hugging Faceからアクセス可能。
- 「Although most conversations are with Vicuna, we think the prompts alone are already highly valuable and one can use other models to regenerate answers if needed.」とのこと。言語は英語が圧倒的に多く、ポルトガル語、ロシア語、中国語、スペイン語と続く。unknownを除き日本語は9位?
LLaVA-RLHF
- Aligning Large Multimodal Models with Factually Augmented RLHF [176.5]
大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「hallucination」をもたらす。 テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。 本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。 提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
論文 参考訳(メタデータ) (Mon, 25 Sep 2023 20:59:33 GMT) - マルチモーダルモデルに対するRLHFとしてFactually Augmented RLHF (Fact-RLHF) を提案。モデルが公開されているのが興味深くGPT-4V(GPT-4V(ision) system card (openai.com))と比較してみたところ。
- リポジトリはLLaVA-RLHF。モデルはzhiqings/LLaVA-RLHF-13b-v1.5-336 · Hugging Face( Apache License 2.0)など。
Qwen Technical Report, PLaMo-13B
- Qwen Technical Report [132.5]
当社の大規模言語モデルシリーズの最初のインストールであるQwenを紹介します。 Qwenはトレーニング済みの言語モデルの基本であり、Qwen-Chatは人間のアライメント技術で微調整されたチャットモデルである。 また、コーディング特化モデルであるCode-QwenとCode-Qwen-Chatも開発し、数学に焦点を当てたMath-Qwen-Chatも開発しました。
論文 参考訳(メタデータ) (Thu, 28 Sep 2023 17:07:49 GMT) - Alibabaが開発したLLMのテクニカルレポート。パラメータサイズの割に性能が高い。
- HuggingFaceリポジトリはQwen (Qwen) (huggingface.co)で先日14Bのモデルも公開されている。「Our code and checkpoints are open to research purpose, and they are allowed for commercial purposes. Check LICENSE for more details about the license. If you have requirements for commercial use, please fill out the form to apply.」とライセンスは独自。
PFNからも日英対応LLMが出ている。日英2言語対応の大規模言語モデルPLaMo-13Bを研究・商用利用可能なオープンソースソフトウェアライセンスで公開 – 株式会社Preferred Networks、HuggingFaceはpfnet/plamo-13b · Hugging Face。Apache License v2.0で非常に使いやすそう。
MindAgent
- MindAgent: Emergent Gaming Interaction [103.7]
大規模言語モデル(LLM)は、マルチエージェントシステムで複雑なスケジューリングを行う能力を持つ。 我々はMindAgentを提案し,ゲームインタラクションにおける創発的能力の評価・調整を行う。
論文 参考訳(メタデータ) (Mon, 18 Sep 2023 17:52:22 GMT) - CUISINEWORLDという仮想環境をベースとしたマルチエージェント化での計画や人間を含むコラボレーションを対象としたベンチマークの提案。GPT-4の優秀さが際立つ。
- プロジェクトサイトはMindAgent
SlimPajama-DC: Understanding Data Combinations for LLM Training
- SlimPajama-DC: Understanding Data Combinations for LLM Training [35.3]
本稿では,SlimPajamaを用いた大規模言語モデルの学習における各種データの組み合わせの影響を理解することを目的とする。 SlimPajamaは厳格に重複したマルチソースデータセットで、627Bトークンにさらに重複している。
論文 参考訳(メタデータ) (Tue, 19 Sep 2023 17:59:54 GMT) - LLM学習時のデータをどう組み合わせるか検証した報告、「a lower training loss doesn’t necessarily correlate directly with superior model performance.」「This implies that as the amount of code in training increases, the training loss diminishes.」というのが面白い(言われてみればまぁそうだろうと思う。。)
- データセットはcerebras/SlimPajama-627B · Datasets at Hugging Face
Kosmos-2.5
- Kosmos-2.5: A Multimodal Literate Model [143.5]
Kosmos-2.5はテキスト集約画像の機械読取のためのマルチモーダルリテラルモデルである。 2つの異なるが協調的な転写タスクに優れる。 テキスト集約的な画像理解タスクに対して異なるプロンプトで適応することができる。
論文 参考訳(メタデータ) (Wed, 20 Sep 2023 15:50:08 GMT) - Kosmosの新バージョン。コア部分はencoder-only/encoder-decoder model から decoder-only modelへ移行しており生成系AIのようなアーキテクチャになっている。商用製品を上回る性能とのこと。
- プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)
ACEGPT: アラビア語のLLM
- AceGPT, Localizing Large Language Models in Arabic [75.6]
本稿では,アラビア語に適した局所的大言語モデル(LLM)を開発するための命令的ニーズと方法論について考察する。 本論文は、アラビア語テキストによる事前学習、ネイティブアラビア語命令を用いた教師付き微調整(SFT)、アラビア語でのGPT-4応答、AIフィードバックによる強化学習(RLAIF)を含むパッケージ化されたソリューションの概要を述べる。 目的は、文化的に認識され、価値に整合したアラビア語のLLMを訓練することであり、アラビア語を話すコミュニティの多様なアプリケーション固有のニーズに役立てることである。
論文 参考訳(メタデータ) (Thu, 21 Sep 2023 13:20:13 GMT) - アラビア語に対応したLLMを作る取り組み。英語以外のLLM構築とみてもとても参考になる。評価用データ重要だなあという印象。
- リポジトリはGitHub – FreedomIntelligence/AceGPT
Data Augmentation for Conversational AI
- Data Augmentation for Conversational AI [17.5]
データ拡張(DA)は、会話システムにおけるデータ不足問題を軽減するための感情的なアプローチである。 このチュートリアルは、会話システムのコンテキストにおけるDAアプローチの包括的で最新の概要を提供する。
論文 参考訳(メタデータ) (Sat, 9 Sep 2023 09:56:35 GMT) - 対話データのデータ拡張に関するCIKMのチュートリアル。プロジェクトサイトはData Augmentation for Conversational AI | Fundamentals and Advances (dataug-convai.github.io)
- 現時点では資料などアップロードされていないが面白そう。