2024年5月30日 – arXiv最新論文の紹介

ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.4]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。 ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文参考訳（メタデータ） (Tue, 21 May 2024 08:06:13 GMT)
Protein Language ModelとLLMの組み合わせ。珍しい（？）マルチモーダル。LLMにはFugu-MT 論文翻訳(概要): Galactica: A Large Language Model for Science (fugumt.com)を使い検証、効果を確認している。
リポジトリはGitHub – acharkq/ProtT3: Source code for ACL 2024 paper: “ProtT3: Protein-to-Text Generation for Text-based Protein Understanding”

JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.5]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文参考訳（メタデータ） (Thu, 23 May 2024 09:43:19 GMT)
数学問題について高品質な合成データを構築し小規模LLMをfinetuning、優れた性能を達成とのこと。商用ではライセンス的に難しい場合も多いが有望なアプローチであると思う。実験でJiuZhang3.0-8B (LLaMA-3-8Bベース) と7B (Mistral-7Bベース）を構築していて早速Llama 3を取り込んでいるのがすごい＆両者の性能がタスクによって大きく異なるのが興味深い。
リポジトリはGitHub – RUCAIBox/JiuZhang3.0: The code and data for the paper JiuZhang3.0