arXiv最新論文の紹介

LLaMA-Adapter

LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention [53.8]
命令追従モデルにLLaMAを効率よく微調整する方法であるLLaMA-Adapterを提案する。 LLaMA-Adapterは52Kの自己命令型デモを使用して、凍結したLLaMA 7Bモデルに1.2Mの学習可能なパラメータを導入している。効率的なトレーニングにより、LLaMA-Adapterは、完全に微調整された7Bパラメータを持つAlpacaに匹敵する高品質な応答を生成する。
論文参考訳（メタデータ） (Tue, 28 Mar 2023 17:59:12 GMT)
その名の通りLLaMAへのAdapter、1.2Mパラメータと極めて少ないパラメータのチューニングのみで完全なfine tuningに相当とのこと
リポジトリはGitHub – ZrrSkywalker/LLaMA-Adapter: Fine-tuning LLaMA to follow instructions within 1 Hour and 1.2M Parameters

LLMの時代に効率のよい調整はどうあるべきかはとても大事、だがweightを変更可能かは悩ましい時代かもとも思う。GitHub – txsun1997/Black-Box-Tuning: ICML’2022: Black-Box Tuning for Language-Model-as-a-Service & EMNLP’2022: BBTv2: Towards a Gradient-Free Future with Large Language Modelsとかにも注目していたり。

CoLT5

CoLT5: Faster Long-Range Transformers with Conditional Computation [48.5]
我々は、CoLT5がLongT5よりもはるかに高速なトレーニングと推論でパフォーマンスを実現していることを示す。 CoLT5は、非常に長い入力を効果的に、かつ、トラクタブルに利用でき、64kまでの入力長が強い。
論文参考訳（メタデータ） (Fri, 17 Mar 2023 03:28:17 GMT)
最大64kトークンに対応できる手法の提案、SCROLLSベンチマークでSOTA

PosterLayout

PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout [62.1]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。 CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文参考訳（メタデータ） (Tue, 28 Mar 2023 12:48:36 GMT)
ポスターのレイアウトを扱うベンチマーク。画像生成が現実的になっている中、センスが問われるこの手のレイアウトは良い問題なのかもしれない。
リポジトリはGitHub – PKU-ICST-MIPL/PosterLayout-CVPR2023: Official repository for “PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout” (CVPR 2023).

Open-world Story Generation with Structured Knowledge Enhancement: A Comprehensive Survey

Open-world Story Generation with Structured Knowledge Enhancement: A Comprehensive Survey [25.9]
本稿では,既存の手法が構造的知識をストーリー生成にどのように統合するかについて,体系的な分類法を提案する。知識に富んだストーリー生成の課題について多次元的な洞察を与える。
論文参考訳（メタデータ） (Fri, 24 Mar 2023 13:20:05 GMT)
ストーリー生成に関するサーベイ
LLMでかなりの部分ができるようになってきたのではないか？と思いつつ、歴史を振り返るのはとても大事

Point2Vec

Point2Vec for Self-Supervised Representation Learning on Point Clouds [81.7]
Data2vecをポイントクラウド領域に拡張し、いくつかのダウンストリームタスクで推奨される結果を報告します。我々は、ポイントクラウド上でData2vecライクな事前トレーニングの可能性を解放するpoint2vecを提案する。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 10:08:29 GMT)
2vecシリーズの点群版
リポジトリはpoint2vec (ka.codes)

Foundation Models and Fair Use

Foundation Models and Fair Use [96.0]
米国や他の国では、著作権のあるコンテンツは、公正な使用原理のために責任を負わずに基礎モデルを構築するために使われることがある。本研究では,著作権コンテンツに基づく基礎モデルの開発と展開の潜在的なリスクについて調査する。基礎モデルが公正な使用と一致し続けるのに役立つ技術的緩和について論じる。
論文参考訳（メタデータ） (Tue, 28 Mar 2023 03:58:40 GMT)
Foundation ModelとFair Useに関する分析。様々なデータセットにグレーなデータが入っているのは事実で「Thus, the risk of infringement is real, and fair use will not cover every scenario where a foundation model is created or used.」という指摘は重要
結局は裁判の中で決着していくものであろうし、日本の著作権法だとまた違った見解になるのだろうが、この報告の中では（完ぺきではないにしろ）緩和策にも触れられているのがありがたい。

The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling

The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling [5.7]
我々は、北ゲルマン語の主要言語すべてで1.2TBのテキストからなる高品質なデータセットをキュレートする。本稿では,データセットの収集,クリーニング,フィルタリングに関する考察とプロセスについて詳述する。
論文参考訳（メタデータ） (Thu, 30 Mar 2023 06:42:22 GMT)
デンマーク語,アイスランド語,ノルウェー語,スウェーデン語の1.2TBのデータセット構築に関する論文。1.2TBはPile（800GB）以上の規模で大規模言語モデル構築で十分機能するデータ量
日本語データを作ってみたいなーと思いつつ、参考になる情報（データセットが構築できても計算環境が厳しいが…）

Hallucinations in Large Multilingual Translation Models

Hallucinations in Large Multilingual Translation Models [70.1]
大規模多言語機械翻訳システムでは、多数の言語間で直接翻訳できることが顕著に示されている。野生に配備されると、これらのモデルが幻覚翻訳を生成し、ユーザーの信頼を著しく損なう可能性があり、安全性の懸念が高まる。幻覚に関する既存の研究は、主に高ソース言語で訓練された小さなバイリンガルモデルに焦点を当てている。
論文参考訳（メタデータ） (Tue, 28 Mar 2023 16:17:59 GMT)
最近よく話題になるHallucinationについて多言語翻訳の観点で分析した論文。ChatGPTの検証も行っている。
多言語翻訳モデルでは（当然ながら）リソースの少ない言語に対してHallucinationが多発するが、ChatGPTではむしろ中リソースの言語に対して問題が多く行るのが興味深い。Hallucinationの緩和としてfallback systemを使う場合、同じトレーニングデータとアーキテクチャを共有するモデルでは効果が薄く別の外部システムを使うことが有効としている。

MUG: Meeting Understanding and Generation benchmark

MUG: A General Meeting Understanding and Generation Benchmark [60.1]
我々はAliMeeting4MUG Corpusを構築した。本稿では,このコーパスの詳細な紹介,SLPタスクと評価方法,ベースラインシステムとその性能について述べる。
論文参考訳（メタデータ） (Fri, 24 Mar 2023 11:52:25 GMT)
会議の理解と生成に関するデータセット
SLP（spoken language processing)として topic segmentation、topic-level and session-level extractive summarization、topic title generation、 keyphrase extraction、action item detectionというタスクが設定されているとのこと。商用として非常に重要なタスク群だと思う
サイトを見るとコンペティションのような形式なのかなと思いつつ、面白い題材だと思う。
リポジトリはAlimeeting4MUG数据集 · 数据集 (modelscope.cn)

週刊GPT

今週もGPT-4関連の話題が多かった。面白そうな論文をメモがてら記載しているが、発表が多すぎて読むのが大変。

などオープンソースの取り組みも盛ん。

GPTEval: NLG Evaluation using GPT-4 with Better Human Alignment [64.0]
GPTEvalは、大規模言語モデルにチェーン・オブ・シンドロームとフォームフィリング・パラダイムを使って、NLG出力の品質を評価するためのフレームワークである。 GPT-4 をバックボーンモデルとした GPTEval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 12:46:54 GMT)
GPT-4（＋CoT）を用いたNLGの評価手法
LLMでLLMを評価するような事にもなりかねないが、平均的な性能でUniEvalを超えているのはすごい

BloombergGPT: A Large Language Model for Finance [26.3]
我々は、幅広い財務データに基づいて訓練された500億のパラメータ言語モデルであるBloombergGPTを提示する。 Bloombergの広範囲なデータソースに基づいて,汎用データセットから345億のトークンを付加した,363億のトークンデータセットを構築しました。我々の混合データセットトレーニングは、財務タスクにおける既存のモデルをかなりのマージンで上回るモデルにつながります。
論文参考訳（メタデータ） (Thu, 30 Mar 2023 17:30:36 GMT)
金融ドメインのデータとしてFinPileを構築、一般的なデータを含めて学習された金融に強いLLM
流石というべきか、金融関連のタスクにおいてはBLOOM 176Bを上回る性能、BIG-BENCHにおけるBLOOM 176BやPaLM 540Bの結果を比較するにドメイン特化型のLLMは特定ドメインに優れた性能を発揮するのは間違いないように思う。

HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace [70.7]
大規模言語モデル(LLM)は、言語理解、生成、相互作用、推論において例外的な能力を持つ。 LLMは、複雑なAIタスクを解決するために既存のAIモデルを管理するコントローラとして機能する可能性がある。 HuggingGPTは、さまざまなモダリティとドメインで、多数の高度なAIタスクをカバーすることができる。
論文参考訳（メタデータ） (Thu, 30 Mar 2023 17:48:28 GMT)
ChatGPTとHuggingFaceを連携することで様々なMLタスクを解くという提案
自然言語で様々なタスクを解くためにChatGPTをインタフェースとして用いるというのはChatGPT pluginと同じ感じがして興味深く、LLMのプランニング能力をうまく使っている。下記のTaskMatrix.AIに近い気がするのだが、どういう関係にあるのだろう？
リポジトリはGitHub – microsoft/JARVIS: JARVIS, a system to connect LLMs with ML community

TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs [71.7]
私たちは、基礎モデルと数百万のAPIを結合してタスク補完を行う、新しいAIエコシステムとしてTaskMatrix.AIを紹介します。このようなエコシステムを構築するためのビジョンを示し、それぞれの重要なコンポーネントを説明し、このビジョンの実現可能性と次に取り組むべき主な課題の両方を説明するために研究ケースを使用します。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 03:30:38 GMT)

ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks [0.0]
また、ChatGPTは、いくつかのアノテーションタスクにおいて、クラウドワーカーよりも優れていることを示す。 ChatGPTのアノテーションあたりのコストは0.003ドル未満で、MTurkの約20倍安い。
論文参考訳（メタデータ） (Mon, 27 Mar 2023 09:59:48 GMT)
tweetのアノテーションタスクでAmazon Mechanical TurkよりもChatGPTの方が優れていたとする報告。訓練されたアノテータも超えているのが凄い。
（とはいえ報告されたAccuracyを見るにクラウドワーカーの品質がいちいちという感じもする）

AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [64.0]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。 LLMをより良いアノテータにするために、我々は2段階のアプローチ「explain-then-annotate」を提案する。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 17:03:21 GMT)
上記と近しい報告。
良いプロンプトの作り方にまで踏み込んでいて参考になる。（のだが、GPT-3.5の規約上このように作られたアノテーションデータを使ってモデルを作ることはできないのでは？という気もしている。競合するLLMでなければ大丈夫だったりするのだろうか？最新の利用規約など詳細の確認が必要。）

ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction Benchmark [11.4]
ChatGPTはOpenAIが開発した最先端の人工知能言語モデルである。商用のGEC製品(例:Grammarly)や最先端のモデル(例:GECToR)と比較する。また,ChatGPTは,自動評価指標の基準値ほど性能が良くないことがわかった。
論文参考訳（メタデータ） (Wed, 15 Mar 2023 00:35:50 GMT)
ChatGPTの文法エラー訂正能力の検証
商用製品に比べるとパフォーマンスは劣るとの評価。GPT-3.5の能力としてはそうだろうと思いつつGPT-4だとどうなるのかは興味がある。

2025年12月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31