arXiv最新論文の紹介

週刊GPT

ChatGPT、GPT-4関係の記事がずっと多い。凄い盛り上がり。

先週に引き続きオープンな取り組みも続けられており期待大。

Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data [55.1]
高品質なマルチターンチャットコーパスを自動生成するパイプラインを提案する。我々は,オープンソースの大規模言語モデルであるLLaMAを強化するために,パラメータ効率のチューニングを用いる。得られたモデルはBaizeと呼ばれ、マルチターン対話において優れた性能を示す。
論文参考訳（メタデータ） (Mon, 3 Apr 2023 17:59:09 GMT)
LLaMAベースのオープンなモデル。コーパスをChatGPT(gpt-3.5-turbo)で作っているのが特徴的。おそらくこのような作成過程なので「Commercial use is strictly prohibited.」ただ、ベースとなるLLMさえあればChatGPTクローンの作成は可能なのではないかと思う内容。（ベースが作れないという話あるけど…）
リポジトリはGitHub – project-baize/baize-chatbot: Let ChatGPT teach your own chatbot in hours with a single GPU!

Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling [19.2]
Pythiaは16の大規模言語モデル(LLM)からなるスイートで、すべて同じ順序で表示される公開データに基づいてトレーニングされている。トレーニングデータローダをダウンロードして再構築するツールとともに,16モデル毎に154のチェックポイントを公開しています。
論文参考訳（メタデータ） (Mon, 3 Apr 2023 20:58:15 GMT)
オープンなLLM、最大12Bパラメータのモデルを構築。12B構築時の計算リソースは72,300 GPU hours、A100 (40GB)。p4d.24xlarge（8 GPU hour）が32.77 USD/hourなので、4200万円。LLaMA 7Bと比較しても計算リソースが抑えめ。
リポジトリはGitHub – EleutherAI/pythia

医学関連の質問に対応できるかの話

Exploring the Potential of Large Language models in Traditional Korean Medicine: A Foundation Model Approach to Culturally-Adapted Healthcare [0.0]
大規模言語モデルであるGPT-3.5とGPT-4は、医学的な訓練を欠いているにもかかわらず、優れた医学的知識を示している。本研究は,TKMにおけるGPT-3.5とGPT-4の能力を評価することを目的とした。
論文参考訳（メタデータ） (Fri, 31 Mar 2023 05:43:21 GMT)
韓国の医学的知識の検証。「GPT-3.5 and GPT-4 achieved 42.06% and 57.29% accuracy, respectively, with GPT-4 nearing passing performance.」と高い性能

Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations [22.3]
本研究は,過去5年間の全国医療ライセンス試験において,大規模言語モデル(LLM)を評価した。実験の結果, GPT-4はChatGPTおよびGPT-3より優れており, 5年間の試験に合格していることがわかった。ベンチマークをIgaku QAとしてリリースし、すべてのモデル出力と試験メタデータを公開します。
論文参考訳（メタデータ） (Fri, 31 Mar 2023 13:04:47 GMT)
こちらは日本の医師国家試験を対象にした検証。GPT-4はChatGPTより優れており試験を通過可能なスコアを達成。
使用したデータセット等が公開されている。GitHub – jungokasai/IgakuQA

次にエンジニアリングの試験を対象とした検証。ここでも優れた性能を達成

Can AI Chatbots Pass the Fundamentals of Engineering (FE) and Principles and Practice of Engineering (PE) Structural Exams? [1.1]
ChatGPT-4 と Bard はそれぞれ FE 試験で 70.9% と 39.2% を獲得し、PE 試験で 46.2% と 41% を獲得した。現在のChatGPT-4はFE試験に合格する可能性があることは明らかである。
論文参考訳（メタデータ） (Fri, 31 Mar 2023 15:37:17 GMT)

次に頑健性の話。

On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective [33.3]
本研究は,ChatGPTの頑健性について,敵対的視点とアウト・オブ・ディストリビューションの観点から評価する。その結果,ほとんどの対人・OOD分類・翻訳作業において一貫した優位性を示した。 ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 14:21:51 GMT)
頑健性の検証。LLMが優れるかはかなりタスクに依存する印象。
（翻訳において優れていると結論しているが、相手を商用システムにしないといけないのでは？と思わなくもない）

上記にも関連するが、翻訳における検証

Unleashing the Power of ChatGPT for Translation: An Empirical Study [18.7]
ChatGPTは自然言語理解と自然言語生成において驚くべき能力を示した。私たちは、広範囲の翻訳にいくつかの翻訳プロンプトを採用しています。私たちの研究は、ChatGPTが翻訳において大きな可能性を秘めているという実証的な証拠を提供する。
論文参考訳（メタデータ） (Wed, 5 Apr 2023 01:17:59 GMT)
ドメイン情報を入れるなどプロンプトを工夫することにより機械翻訳でも優れた性能を達成とのこと。
機械翻訳でのIn-Context Learning（GPT-4 + OpenICL） | ぷるーふおぶこんせぷと (staka.jp)でも検証したが、プロンプトを介して機械翻訳に必要な情報を与えられるというのはGPT-4やChatGPTといったLLMの非常に良い利点であると思う。（当然ながらBLEUへの影響も大きい）

最後に要約に関する検証

Zero-Shot Cross-Lingual Summarization via Large Language Models [43.8]
言語間要約(CLS)は、異なる対象言語で要約を生成する。近年のLarge Language Models (LLMs) の出現は、計算言語学コミュニティから広く注目を集めている。本稿では,異なるパラダイムからゼロショットCLSを実行するために,LSMを誘導するために様々なプロンプトを経験的に使用した。
論文参考訳（メタデータ） (Thu, 6 Apr 2023 09:27:37 GMT)
LLMを用いたクロスリンガルな要約に関する検証。GPT-3.5,ChatGPT,GPT-4,BLOOMZ,ChatGLM-6B,Vicuna-13B,ChatYuanと非常に多くのモデル＆複数のプロンプトのパターンを評価しているのが凄い
全てのおいてGPT-4が優れているわけでもなくデータに依存するのが興味深い。一方でオープンソースのモデルの結果があまりよろしくないのは残念。

LLaMA-Adapter

LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention [53.8]
命令追従モデルにLLaMAを効率よく微調整する方法であるLLaMA-Adapterを提案する。 LLaMA-Adapterは52Kの自己命令型デモを使用して、凍結したLLaMA 7Bモデルに1.2Mの学習可能なパラメータを導入している。効率的なトレーニングにより、LLaMA-Adapterは、完全に微調整された7Bパラメータを持つAlpacaに匹敵する高品質な応答を生成する。
論文参考訳（メタデータ） (Tue, 28 Mar 2023 17:59:12 GMT)
その名の通りLLaMAへのAdapter、1.2Mパラメータと極めて少ないパラメータのチューニングのみで完全なfine tuningに相当とのこと
リポジトリはGitHub – ZrrSkywalker/LLaMA-Adapter: Fine-tuning LLaMA to follow instructions within 1 Hour and 1.2M Parameters

LLMの時代に効率のよい調整はどうあるべきかはとても大事、だがweightを変更可能かは悩ましい時代かもとも思う。GitHub – txsun1997/Black-Box-Tuning: ICML’2022: Black-Box Tuning for Language-Model-as-a-Service & EMNLP’2022: BBTv2: Towards a Gradient-Free Future with Large Language Modelsとかにも注目していたり。

CoLT5

CoLT5: Faster Long-Range Transformers with Conditional Computation [48.5]
我々は、CoLT5がLongT5よりもはるかに高速なトレーニングと推論でパフォーマンスを実現していることを示す。 CoLT5は、非常に長い入力を効果的に、かつ、トラクタブルに利用でき、64kまでの入力長が強い。
論文参考訳（メタデータ） (Fri, 17 Mar 2023 03:28:17 GMT)
最大64kトークンに対応できる手法の提案、SCROLLSベンチマークでSOTA

PosterLayout

PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout [62.1]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。 CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文参考訳（メタデータ） (Tue, 28 Mar 2023 12:48:36 GMT)
ポスターのレイアウトを扱うベンチマーク。画像生成が現実的になっている中、センスが問われるこの手のレイアウトは良い問題なのかもしれない。
リポジトリはGitHub – PKU-ICST-MIPL/PosterLayout-CVPR2023: Official repository for “PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout” (CVPR 2023).

Open-world Story Generation with Structured Knowledge Enhancement: A Comprehensive Survey

Open-world Story Generation with Structured Knowledge Enhancement: A Comprehensive Survey [25.9]
本稿では,既存の手法が構造的知識をストーリー生成にどのように統合するかについて,体系的な分類法を提案する。知識に富んだストーリー生成の課題について多次元的な洞察を与える。
論文参考訳（メタデータ） (Fri, 24 Mar 2023 13:20:05 GMT)
ストーリー生成に関するサーベイ
LLMでかなりの部分ができるようになってきたのではないか？と思いつつ、歴史を振り返るのはとても大事

Point2Vec

Point2Vec for Self-Supervised Representation Learning on Point Clouds [81.7]
Data2vecをポイントクラウド領域に拡張し、いくつかのダウンストリームタスクで推奨される結果を報告します。我々は、ポイントクラウド上でData2vecライクな事前トレーニングの可能性を解放するpoint2vecを提案する。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 10:08:29 GMT)
2vecシリーズの点群版
リポジトリはpoint2vec (ka.codes)

Foundation Models and Fair Use

Foundation Models and Fair Use [96.0]
米国や他の国では、著作権のあるコンテンツは、公正な使用原理のために責任を負わずに基礎モデルを構築するために使われることがある。本研究では,著作権コンテンツに基づく基礎モデルの開発と展開の潜在的なリスクについて調査する。基礎モデルが公正な使用と一致し続けるのに役立つ技術的緩和について論じる。
論文参考訳（メタデータ） (Tue, 28 Mar 2023 03:58:40 GMT)
Foundation ModelとFair Useに関する分析。様々なデータセットにグレーなデータが入っているのは事実で「Thus, the risk of infringement is real, and fair use will not cover every scenario where a foundation model is created or used.」という指摘は重要
結局は裁判の中で決着していくものであろうし、日本の著作権法だとまた違った見解になるのだろうが、この報告の中では（完ぺきではないにしろ）緩和策にも触れられているのがありがたい。

The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling

The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling [5.7]
我々は、北ゲルマン語の主要言語すべてで1.2TBのテキストからなる高品質なデータセットをキュレートする。本稿では,データセットの収集,クリーニング,フィルタリングに関する考察とプロセスについて詳述する。
論文参考訳（メタデータ） (Thu, 30 Mar 2023 06:42:22 GMT)
デンマーク語,アイスランド語,ノルウェー語,スウェーデン語の1.2TBのデータセット構築に関する論文。1.2TBはPile（800GB）以上の規模で大規模言語モデル構築で十分機能するデータ量
日本語データを作ってみたいなーと思いつつ、参考になる情報（データセットが構築できても計算環境が厳しいが…）

Hallucinations in Large Multilingual Translation Models

Hallucinations in Large Multilingual Translation Models [70.1]
大規模多言語機械翻訳システムでは、多数の言語間で直接翻訳できることが顕著に示されている。野生に配備されると、これらのモデルが幻覚翻訳を生成し、ユーザーの信頼を著しく損なう可能性があり、安全性の懸念が高まる。幻覚に関する既存の研究は、主に高ソース言語で訓練された小さなバイリンガルモデルに焦点を当てている。
論文参考訳（メタデータ） (Tue, 28 Mar 2023 16:17:59 GMT)
最近よく話題になるHallucinationについて多言語翻訳の観点で分析した論文。ChatGPTの検証も行っている。
多言語翻訳モデルでは（当然ながら）リソースの少ない言語に対してHallucinationが多発するが、ChatGPTではむしろ中リソースの言語に対して問題が多く行るのが興味深い。Hallucinationの緩和としてfallback systemを使う場合、同じトレーニングデータとアーキテクチャを共有するモデルでは効果が薄く別の外部システムを使うことが有効としている。

MUG: Meeting Understanding and Generation benchmark

MUG: A General Meeting Understanding and Generation Benchmark [60.1]
我々はAliMeeting4MUG Corpusを構築した。本稿では,このコーパスの詳細な紹介,SLPタスクと評価方法,ベースラインシステムとその性能について述べる。
論文参考訳（メタデータ） (Fri, 24 Mar 2023 11:52:25 GMT)
会議の理解と生成に関するデータセット
SLP（spoken language processing)として topic segmentation、topic-level and session-level extractive summarization、topic title generation、 keyphrase extraction、action item detectionというタスクが設定されているとのこと。商用として非常に重要なタスク群だと思う
サイトを見るとコンペティションのような形式なのかなと思いつつ、面白い題材だと思う。
リポジトリはAlimeeting4MUG数据集 · 数据集 (modelscope.cn)

2026年7月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31