2024年5月 – arXiv最新論文の紹介

Why Not Transform Chat Large Language Models to Non-English?

Why Not Transform Chat Large Language Models to Non-English? [57.2]
非英語データの不足は、非英語大言語モデル(LLM)の開発を制限する TransLLMは、転送問題を変換チェーン・オブ・シント(translation chain of-of- Thought)でいくつかの一般的なサブタスクに分割する。本手法は,シングルターンデータのみを用いて,マルチターンベンチマークMT-benchにおいて,強いベースラインとChatGPTより優れる。
論文参考訳（メタデータ） (Wed, 22 May 2024 18:53:25 GMT)
LLMを他の言語に対応させる手法の提案。Target Language Pre-Training → Translation Pre-Training → Transfer Fine-Tuningという流れで翻訳をキーとしている。

MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning

MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning [105.1]
低ランク適応は、大規模言語モデルのためのパラメータ効率の良い微調整法として人気がある。トレーニング可能なパラメータ数を同じ数に保ちながら、高階更新を実現するために2乗行列を用いるMoRAと呼ばれる新しい手法を提案する。本手法はメモリ集約型タスクではLoRAより優れ,他のタスクでは同等のパフォーマンスを実現している。
論文参考訳（メタデータ） (Mon, 20 May 2024 15:48:32 GMT)
正方行列を用いたLoRAの改善
リポジトリはGitHub – kongds/MoRA

ProtT3: Protein-to-Text Generation for Text-based Protein Understanding

ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.4]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。 ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文参考訳（メタデータ） (Tue, 21 May 2024 08:06:13 GMT)
Protein Language ModelとLLMの組み合わせ。珍しい（？）マルチモーダル。LLMにはFugu-MT 論文翻訳(概要): Galactica: A Large Language Model for Science (fugumt.com)を使い検証、効果を確認している。
リポジトリはGitHub – acharkq/ProtT3: Source code for ACL 2024 paper: “ProtT3: Protein-to-Text Generation for Text-based Protein Understanding”

JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models

JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.5]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文参考訳（メタデータ） (Thu, 23 May 2024 09:43:19 GMT)
数学問題について高品質な合成データを構築し小規模LLMをfinetuning、優れた性能を達成とのこと。商用ではライセンス的に難しい場合も多いが有望なアプローチであると思う。実験でJiuZhang3.0-8B (LLaMA-3-8Bベース) と7B (Mistral-7Bベース）を構築していて早速Llama 3を取り込んでいるのがすごい＆両者の性能がタスクによって大きく異なるのが興味深い。
リポジトリはGitHub – RUCAIBox/JiuZhang3.0: The code and data for the paper JiuZhang3.0

Implicit In-context Learning

Implicit In-context Learning [37.1]
In-context Learning (ICL)は、大規模な言語モデルに対して、テストクエリの前にいくつかの実演例をプレフィックスすることで、推論中に目に見えないタスクに適応する権限を与える。 Implicit In-context Learning (I2CL)は、従来のICLにまつわる課題に、アクティベーション空間内の実演例を吸収することで対処する革新的なパラダイムである。 I2CLは、ゼロショットコストで数ショットのパフォーマンスを達成し、デモ例のバリエーションに対して堅牢性を示す。
論文参考訳（メタデータ） (Thu, 23 May 2024 14:57:52 GMT)
ICLを表すベクトル（context vector）を使うことで高速化。できそうではあるがcontext vectorが持つ情報はどのくらいの有効性があるか＆実際のところ何なのかが気になる。
リポジトリはGitHub – LzVv123456/I2CL

STAR: A Benchmark for Situated Reasoning in Real-World Videos

STAR: A Benchmark for Situated Reasoning in Real-World Videos [94.8]
本稿では,実世界のビデオに対して,状況抽象化と論理的質問応答による位置推論能力を評価する新しいベンチマークを提案する。データセットには、インタラクション、シーケンス、予測、実現可能性の4つのタイプが含まれている。本稿では,視覚知覚,状況抽象化,言語理解,機能推論を両立させることができる診断型ニューロシンボリックモデルを提案する。
論文参考訳（メタデータ） (Wed, 15 May 2024 21:53:54 GMT)
動画を通したinteraction, sequence, prediction, feasibilityのベンチマーク
プロジェクトサイトはSTAR: A Benchmark for Situated Reasoning in Real-World Videos (bobbywu.com)

YOLOv10: Real-Time End-to-End Object Detection

YOLOv10: Real-Time End-to-End Object Detection [68.3]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。 YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文参考訳（メタデータ） (Thu, 23 May 2024 11:44:29 GMT)
YOLO v10、性能が高く低レイテンシ。
リポジトリはGitHub – THU-MIG/yolov10: YOLOv10: Real-Time End-to-End Object Detection

Agent Planning with World Knowledge Model

Agent Planning with World Knowledge Model [88.5]
エージェント計画を容易にするためにパラメトリック世界知識モデル(WKM)を導入する。我々はWKMを開発し、グローバルな計画と動的状態の知識を導くために、事前のタスク知識を提供する。我々は、我々のWKMが視覚障害者の試行錯誤と幻覚的行動の問題を効果的に緩和できることを示すために分析を行った。
論文参考訳（メタデータ） (Thu, 23 May 2024 06:03:19 GMT)
World Knowledge Modelが計画に有効とのこと。それ自体は納得的でWKMを得るために「Specifically, we first steer the agent model to synthesize task knowledge from the comparison between expert and sampled trajectories. Then we prompt it to summarize state knowledge for each planning step from expert trajectories and combine the previous and next actions to build a state knowledge base. Lastly, we integrate the generated knowledge into expert trajectories and train a WKM.」という手順をとる。この手の設計が重要になっている。
リポジトリはhttps://github.com/zjunlp/WKMとのことだが、現時点では４０４

Risks and Opportunities of Open-Source Generative AI

Risks and Opportunities of Open-Source Generative AI [64.7]
Generative AI(Gen AI)の応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。こうした地震の変化の可能性は、この技術の潜在的なリスクについて活発に議論を巻き起こし、より厳格な規制を要求した。この規制は、オープンソースの生成AIの誕生する分野を危険にさらす可能性がある。
論文参考訳（メタデータ） (Tue, 14 May 2024 13:37:36 GMT)
活発に開発されているオープンな生成AIについてリスクと意義をまとめた論文、全体としては「We argue that, overall, the benefits of open-source Gen AI outweigh its risks.」
やや長いがよく整理されている論文。

Phi-3 small/medium, Mistral 7B v0.3, Aya 23 8B/35B

先週はMS Buildで発表されたPhi small/medium/visionのほか、オープンなLLMの発表が多かった。

MSのPhiはMITライセンス、Mistral v0.3はApache-2ライセンスとオープンなモデル、CohereのAya 23はCC-BY-NCと商用利用は不可であるがこのような強力なモデルが公開されるのはありがたい。

別Blogで検証を行った（Mistral 7B v0.3, Phi-3 small/medium, Aya 23 8Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp)）感じ日本語でもタスクによっては優れた性能を発揮できそう。

2024年5月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31