- Eureka: Human-Level Reward Design via Coding Large Language Models [126.0]
大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクのためのハイレベルなセマンティックプランナーとして優れています。 LLMを用いた人間レベルの報酬設計アルゴリズムであるEurekaを提案する。 Eurekaは、最先端のLLMの目覚ましいゼロショット生成、コード書き、コンテキスト内改善機能を利用する。
論文 参考訳(メタデータ) (Thu, 19 Oct 2023 17:31:01 GMT) - LLMを用いた reward design algorithm の提案。性能は人間レベルとのことであり、「EUREKA can improve and benefit from human reward functions.」とのこと。強化学習を利用する場合に難しい部分をサポートできる可能性がある。
- プロジェクトサイトはEureka | Human-Level Reward Design via Coding Large Language Models (eureka-research.github.io)
カテゴリー: arXiv
Automatic Hallucination Assessment for Aligned Large Language Models via Transferable Adversarial Attacks
- Automatic Hallucination Assessment for Aligned Large Language Models via Transferable Adversarial Attacks [98.2]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。 具体的には,LLM ベースのフレームワークである Auto Debug について述べる。 実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (Thu, 19 Oct 2023 06:37:32 GMT) - LLMを評価するため(にHallucinationを引き起こす)データセットをエビデンス付きで自動作成するAutoDebugフレームワークワークの提案、対GPT-4やPaLMに対しても有効なよう
- プロジェクトサイトはAutomatic Hallucination Assessment for Aligned Large Language Models via Transferable Adversarial Attacks (autodebug-llm.github.io)
Set-of-Mark Prompting
- Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V [103.7]
大規模マルチモーダルモデルの視覚的グラウンド化能力を解き放つために,新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案する。 我々は、SAMのような市販のインタラクティブセグメンテーションモデルを用いて、画像を異なるレベルの粒度の領域に分割し、これらの領域を一連のマークでオーバーレイする。 マークされたイメージを入力として使用することで、GPT-4Vは視覚的な接地を必要とする質問に答えることができる。
論文 参考訳(メタデータ) (Tue, 17 Oct 2023 17:51:31 GMT) - GPT-4Vに対するプロンプトテクニック、Set-of-Markの提案。速度勝負みたいなところもあるのだろうけど、論文出るの速すぎ・・・
- 「We show that simply overlaying a number of symbolic marks on a set of regions of an input image can unleash the visual grounding ability of GPT-4V.」とのこと。人間でも画像にガイドを入れるとタスクをやりやすくなるのでアイデアとしてはそうだろうと思うものの、広範な実験・検証はとても参考になる。
- プロジェクトサイトはSoM-GPT4V
DocXChain
- DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond [17.9]
DocXChainは、ドキュメント解析のための強力なオープンソースツールチェーンである。 テキスト、テーブル、チャートなどの構造化されていないドキュメントに具現化されたリッチな情報を、構造化された表現に自動的に変換する。
論文 参考訳(メタデータ) (Thu, 19 Oct 2023 02:49:09 GMT) - Apache License, Version 2.0と使いやすいドキュメント解析ソフトウェア、LLMに投入するための前処理などで重要
- リポジトリはAdvancedLiterateMachinery/Applications/DocXChain at main · AlibabaResearch/AdvancedLiterateMachinery · GitHub
オープンなLLM(LLM-jp-13B)、Transparency Index、Llemma、Lemur
130億パラメータの大規模言語モデル「LLM-jp-13B」を構築~NII主宰LLM勉強会(LLM-jp)の初期の成果をアカデミアや産業界の研究開発に資するために公開~ – 国立情報学研究所 / National Institute of Informatics
でApache-2の日本語対応(おそらく日英対応)LLMが発表された。ツール類も含めてオープンであり素晴らしい取り組み
LLMを含むFoundationModelのTransparencyレポートが Stanford HAIから出ている。Introducing The Foundation Model Transparency Index (stanford.edu)。OSSのものが一番とは限らない意外な結果だが、各指標が同じ重さだというのに無理がありそう。。
今週も特化型を含めてLLMの発表が複数あった。
- Llemma: An Open Language Model For Mathematics [48.3]
数学のための大きな言語モデルであるLlemmaを紹介します。 MATHベンチマークでは、Llemmaはすべての既知のオープンベースモデルより優れている。 レムマは道具の使用と公式な定理を証明することができるが、それ以上の微調整は行わない。
論文 参考訳(メタデータ) (Mon, 16 Oct 2023 17:54:07 GMT) - Code Llamaを継続学習し、数学の能力を強化したLLM
- リポジトリはGitHub – EleutherAI/math-lm
- Lemur: Harmonizing Natural Language and Code for Language Agents [107.4]
自然言語とコーディング機能の両方に最適化されたオープンソースの言語モデルであるLemurとLemur-Chatを紹介する。 我々のモデルは、様々なテキストおよびコーディングベンチマークで最先端の平均性能を達成する。 自然言語とプログラミング言語の調和により、Lemur-Chatはエージェント能力に関するプロプライエタリなモデルとのギャップを著しく狭めることができる。
論文 参考訳(メタデータ) (Tue, 10 Oct 2023 17:57:45 GMT) - コード生成能力が高いLLM、70BはCC-BY-NCで商用利用はできない。
- プロジェクトサイトはXLANG Lab | Introducing Lemur: Open Foundation Models for Language Agents
- モデルはXLANG Lab | Introducing Lemur: Open Foundation Models for Language Agents、リポジトリはGitHub – OpenLemur/Lemur: Lemur: Open Foundation Models for Language Agents
State of the Art on Diffusion Models for Visual Computing
- State of the Art on Diffusion Models for Visual Computing [191.6]
本稿では,拡散モデルの基本数学的概念,実装の詳細,および一般的な安定拡散モデルの設計選択を紹介する。 また,拡散に基づく生成と編集に関する文献の急速な発展を概観する。 利用可能なデータセット、メトリクス、オープンな課題、社会的意味について議論する。
論文 参考訳(メタデータ) (Wed, 11 Oct 2023 05:32:29 GMT) - 急速に研究&社会実装が進む拡散モデルに関するサーベイ
- 挙げられている文献の新しさがこの分野の流行を物語っているように思う
UniSim: Learning Interactive Real-World Simulators
- Learning Interactive Real-World Simulators [113.5]
生成モデルを用いて実世界の相互作用の普遍的シミュレータ(UniSim)を学習する可能性について検討する。 UniSimは、高レベルの命令と低レベルの制御の両方の視覚的結果をシミュレートすることで、人間とエージェントが世界とどのように相互作用するかをエミュレートすることができる。
論文 参考訳(メタデータ) (Mon, 9 Oct 2023 19:42:22 GMT) - 生成モデルを活用したエージェントをシミュレーション環境を通して学習していく話、強化学習で有力だった方針であり、エージェントの学習にも有望な方針に思える。
- プロジェクトサイトはUniSim: Learning Interactive Real-World Simulators (universal-simulator.github.io)
RoleLLM、RoleBench
- RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models [124.7]
大規模言語モデル(LLM)におけるロールプレイング能力をベンチマークし、評価し、拡張するフレームワークであるRoleLLMを紹介する。 Context-InstructとRoleGPTによって、168,093サンプルでロールプレイする最初の体系的できめ細かい文字レベルのベンチマークデータセットであるRoleBenchを作成します。
論文 参考訳(メタデータ) (Sun, 1 Oct 2023 17:52:59 GMT) - LLMによるrole-playingを実現するフレームワークと評価ベンチマークの提案。
- リポジトリはGitHub – InteractiveNLP-Team/RoleLLM-public: RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models
Towards Better Chain-of-Thought Prompting Strategies: A Survey
- Towards Better Chain-of-Thought Prompting Strategies: A Survey [60.8]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の促進戦略として使用すると,その印象的な強度を示す。 近年,CoTの促進効果が注目されている。 この調査は、関連する研究全般の参考になるかもしれない。
論文 参考訳(メタデータ) (Sun, 8 Oct 2023 01:16:55 GMT) - Chain of Thoughtのサーベイ、新たな分野でありサーベイできるほどの研究があるというのも若干驚き。Extension Strategiesが非常に参考になった。
In-Context Unlearning
- In-Context Unlearning: Language Models as Few Shot Unlearners [31.4]
In-Context Unlearningは、モデルパラメータを更新することなく、コンテキスト内でインプットを提供する。 これらのコンテキストは、最先端の未学習手法と競合するパフォーマンスレベルを維持しながら、トレーニングセットから特定の情報を効果的に除去することを示します。
論文 参考訳(メタデータ) (Wed, 11 Oct 2023 15:19:31 GMT) - In-Context でのUnlearning。 LiRA-Forgetという評価指標で有効性を確認とのことだが、これはunlearningと言えるのかはやや疑問