2023年4月 – arXiv最新論文の紹介

Sabi\’a: Portuguese Large Language Models

Sabi\’a: Portuguese Large Language Models [5.0]
対象言語における単言語事前学習は,すでに多種多様なコーパスで訓練されているモデルを大幅に改善することを示した。ポルトガルの14のデータセットからなるスイートであるPoetaに関するわずかな評価によると、我々のモデルは、英語と多言語で比較すると、かなり差がある。
論文参考訳（メタデータ） (Sun, 16 Apr 2023 20:11:19 GMT)
マルチリンガルモデルを単言語コーパスで継続的に事前学習することで当該言語での性能を大幅に向上できるという報告
ベースラインモデルの計算量の3%程度で相当の性能向上、LLaMA 65Bを使った場合はgpt-3.5-turboに匹敵ととても効果的に見える。
日本語でも同じようなことができるのか興味津々（もっとも個人で再現させるにはちょっと高いが）

Audio Diffusion Modelに関するサーベイ

A Survey on Audio Diffusion Models: Text To Speech Synthesis and Enhancement in Generative AI [64.7]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文参考訳（メタデータ） (Sun, 2 Apr 2023 09:27:20 GMT)
text-to-speechとspeech enhancementを対象とした拡散モデル利用のサーベイ

Active Learning for Multilingual Semantic Parser

Active Learning for Multilingual Semantic Parser [56.1]
多言語意味解析(AL-MSP)のための最初の能動的学習手法を提案する。 AL-MSPは翻訳対象の既存のデータセットからサブセットのみを選択する。実験の結果,AL-MSPは理想的な選択法で翻訳コストを大幅に削減できることがわかった。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 13:30:06 GMT)
マルチリンガルなSemantic Parserを対象としたアクティブラーニング、翻訳コストを減らすことがモチベーションのようだがNLPに対するアクティブラーニングでうまくいく事例として興味深い
当然ながら「Clearly, human translation delivers a greater output quality compared to machine translation.」なのでアクティブラーニングがうまく動作すると人間で…という方向が期待される

AdaTest++

Supporting Human-AI Collaboration in Auditing LLMs with LLMs [10.1]
大きな言語モデルは偏見があり、無責任に振る舞うことが示されている。これらの言語モデルを厳格に監査することは重要である。既存の監査ツールは、人間とAIの両方を活用して失敗を見つける。
論文参考訳（メタデータ） (Wed, 19 Apr 2023 21:59:04 GMT)
LLMの監査ツール、
リポジトリはGitHub – microsoft/adatest at AdaTest++

AIOpsのサーベイ

AI for IT Operations (AIOps) on Cloud Platforms: Reviews, Opportunities and Challenges [60.6]
IT運用のための人工知能(AIOps)は、AIのパワーとIT運用プロセスが生成するビッグデータを組み合わせることを目的としている。我々は、IT運用活動が発信する重要なデータの種類、分析における規模と課題、そしてどのように役立つかについて深く議論する。主要なAIOpsタスクは、インシデント検出、障害予測、根本原因分析、自動アクションに分類します。
論文参考訳（メタデータ） (Mon, 10 Apr 2023 15:38:12 GMT)
AIOpsのサーベイ、AIOpsの定義は「AIOps combines big data and machine learning to automate IT operations processes, including event correlation, anomaly detection and causality determination」とのこと。
監視部分には（マルチモーダルな）LLMが入ったりしていくんだろうなと思わなくもない。

LLM as A Robotic Brain

LLM as A Robotic Brain: Unifying Egocentric Memory and Control [77.1]
Embodied AIは、物理的または仮想的なエンボディメント(つまりロボット)を持つインテリジェントシステムの研究と開発に焦点を当てている。メモリとコントロールは、具体化されたシステムの2つの不可欠な部分であり、通常、それぞれをモデル化するために別々のフレームワークを必要とします。ロボット脳として大規模言語モデルを用いて,エゴセントリックな記憶と制御を統一するLLM-Brainという新しいフレームワークを提案する。
論文参考訳（メタデータ） (Wed, 19 Apr 2023 00:08:48 GMT)
LLMのゼロショット性能を活用したロボットの行動計画＆制御
記憶と世界モデル的な部分をLLMに担当させているとのこと

XWikiGen

XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation in Low Resource Languages [11.6]
ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクであるXWikiGenを提案する。
論文参考訳（メタデータ） (Tue, 18 Apr 2023 09:38:59 GMT)
Crosslingualな要約タスク、mBARTの成績が良い（LLM系は検証対象とされていない？）
リポジトリはGitHub – DhavalTaunk08/XWikiGen: Codebase for the paper XWikiGen

Multimodal C4

Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text [104.0]
テキスト内ビジョンやFlamingoのような言語モデルは、任意のインターリーブされた画像とテキストのシーケンスを入力としてサポートする。このインターフェースをサポートするために、インターリーブされた画像+テキストを含むウェブコーパス上でプレトレーニングが行われる。我々はMultimodal C4 (mmc4) をリリースした。
論文参考訳（メタデータ） (Fri, 14 Apr 2023 06:17:46 GMT)
非常にありがたいマルチモーダルなデータセット。103Mドキュメント、585Mイメージ、43Btokenと大規模。
「mmc4 is constructed from public webpages contained in the cleaned English c4 corpus.」とのことで日本語はほぼ入っていなさそう・・・
プロジェクトサイトはGitHub – allenai/mmc4: MultimodalC4 is a multimodal extension of c4 that interleaves millions of images with text.

今週のGPT周辺

GPT関連の論文はとても多い。

オープンな動きとしてはStability AIの大規模言語モデルが登場したのが大きいかなと思う。日本語対応はイマイチという話はあるが、画像生成ではオープンなモデル登場以降様々な派生モデルが登場しており、そういった動きに期待したい。主としてオープンなLLM関連の情報を集積しているリポジトリも公開されている。

Stability AI 言語モデル「StableLM Suite」の第一弾をリリース – （英語Stability AI

GitHub – FreedomIntelligence/LLMZoo: ⚡LLM Zoo is a project that provides data, models, and evaluation benchmark for large language models.⚡

Analyzing ChatGPT’s Aptitude in an Introductory Computer Engineering Course [6.5]
ChatGPTは、様々な質問に対して可塑性で人間に聞こえるテキストを生成できるツールである。この研究は、初歩的なコンピュータ工学コースにおいて、クイズ、宿題、試験、実験室の質問に答えることにおけるChatGPTの適性を評価する。
論文参考訳（メタデータ） (Fri, 14 Apr 2023 13:33:42 GMT)
コンピュータエンジニアリングの講義を対象にしたChatGPTの評価。「solutions to homework questions were much less accurate.」で理由は画像等に対応できないからではないか？とのこと。GPT-4でマルチモーダル入力が使えるようになったらどうなるか興味がある。
リポジトリはGitHub – caslab-code/openai-eeng201-solution-generator: Experimenting with using OpenAI to generate solution to homework, quiz, lab, and exam questions in EENG 201.

ImpressionGPT: An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [44.3]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文参考訳（メタデータ） (Mon, 17 Apr 2023 17:13:42 GMT)
radiology report summarizationタスクにおけるGPT系モデルの利用
動的なプロンプト作成など実利用でも参考になるかも

Why Does ChatGPT Fall Short in Answering Questions Faithfully? [9.6]
複雑なオープンドメイン質問応答におけるChatGPTの失敗の解析を行う。我々は、QA失敗に関連する3つの重要な能力(知識、知識関連、知識推論)を特定します。その結果, モデルに詳細な外部知識を付与し, 知識関連を示唆し, 推論の指導を行うことで, モデルをより忠実に解答できる可能性が示唆された。
論文参考訳（メタデータ） (Thu, 20 Apr 2023 17:48:43 GMT)
ChatGPTの間違い分析
外部知識を正しく与えるべきなど、よく言われている対応の良さがわかる。その他の知見も参考になる

Can ChatGPT Reproduce Human-Generated Labels? A Study of Social Computing Tasks [9.7]
ChatGPTは、ソーシャルコンピューティングタスクにおいて人為的なラベルアノテーションを再現する可能性がある。姿勢検出(2x)、感情分析、ヘイトスピーチ、ボット検出の5つのセミナルデータセットを再ラベルした。この結果から,ChatGPTはこれらのデータアノテーションタスクを処理できる可能性を秘めていますが,いくつかの課題が残っています。
論文参考訳（メタデータ） (Thu, 20 Apr 2023 08:08:12 GMT)
ラベル付けの話題。こちらも毎週取り上げているが概ね近い結果だが、タスクによって性能に差があることが興味深い。「However, in less objective cases such as bot detection, ChatGPT performs relatively weaker.」との記載がされている。

LLM-based Interaction for Content Generation: A Case Study on the Perception of Employees in an IT department [85.2]
本稿では,IT企業の従業員が生成ツールを使用する意図を明らかにするためのアンケート調査を行う。以上の結果から, 生成ツールの比較的平均的な受容性が示唆されるが, ツールが有用であると認識されるほど, 意図が高くなることが示唆された。分析の結果, 生産ツールの利用頻度は, 従業員が作業の文脈でこれらのツールをどのように認識しているかを理解する上で重要な要因である可能性が示唆された。
論文参考訳（メタデータ） (Tue, 18 Apr 2023 15:35:43 GMT)
LLMに関するアンケート調査結果。回答数があまり多くなく有用かは疑問。

Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4 [14.9]
この記事では、LogiQAやReClorといった一般的なベンチマークと、新たにリリースされたAR-LSATなどのデータセットを用いて、複数の論理推論データセットを分析します。我々は、論理的推論を必要とするベンチマークを用いて、多選択読解と自然言語推論タスクをテストする。実験結果から,ChatGPTは,ほとんどの論理的推論ベンチマークにおいて,RoBERTaファインチューニング法よりも優れた性能を示した。
論文参考訳（メタデータ） (Thu, 20 Apr 2023 15:25:44 GMT)
logical reasoningにおける評価。ChatGPTは高い性能をしめし、GPT-4はさらにそれを上回る。
ChatGPTの時点でRoBERTaのfine tuningを上回っているのはやや意外。また、GPT-4でも（ReClorを除き）人間のパフォーマンスとは大きな差がある。「However, the performance drops signiﬁcantly when handling newly released and out-of-distribution datasets.」という指摘が印象的（leak…?）。全体的な結論は「Besides, ChatGPT and GPT-4 do not perform astonishingly well on the natural language inference task requiring logical reasoning.」とのこと。
ベンチマークが公開されている　GitHub – csitfun/LogiEval: a benchmark suite for testing logical reasoning abilities of prompt-based models

Learning to Program with Natural Language [82.0]
本稿では,タスクプロシージャを記述するために,自然言語を新しい言語として用いることを提案する。 AMPSとMathデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (Thu, 20 Apr 2023 17:09:12 GMT)
データから自然言語を使ったタスクの解決手順(を示すためのプロンプト
を学習するという話
リポジトリはGitHub – microsoft/NaturalLanguageProgram: Learning to Program with Natural Language

GPT-NER: Named Entity Recognition via Large Language Models [50.7]
GPT-NERはシーケンスラベリングタスクを言語モデルで容易に適用可能な生成タスクに変換する。 GPT-NERは、トレーニングデータの量が極めて少ない場合、低リソースかつ少数ショットのセットアップにおいて、より優れた能力を示す。これは、ラベル付きサンプルの数が限られている実世界のNERアプリケーションにおけるGPT-NERの機能を示す。
論文参考訳（メタデータ） (Thu, 20 Apr 2023 16:17:26 GMT)
苦手かもと言われていたシーケンスラベリングタスクへの対応。使っていく様々なテクニックが参考になるのと、結果的にうまくLLMを使うことで優れた性能を発揮できている。
GitHub – ShuheWang1998/GPT-NER

Toolを使うFoundation Model、Tool-AugmentedなLLM

Tool Learning with Foundation Models [114.3]
基礎モデルの出現により、AIシステムは、人間としてのツールの使用に等しく適応できる可能性がある。その大きな可能性にもかかわらず、この分野における重要な課題、機会、そして将来の取り組みに関する包括的な理解はいまだに欠けている。
論文参考訳（メタデータ） (Mon, 17 Apr 2023 15:16:10 GMT)
ツールを使用する基盤モデルに関するサーベイ
外部知識活用からの自然な拡張な気はしつつ、すごく世界が広がる感覚がありとても興味深い
リポジトリはGitHub – OpenBMB/BMTools: Tool Learning for Big Models, Open-Source Solutions of ChatGPT-Plugins

API-Bank: A Benchmark for Tool-Augmented LLMs [48.7]
本稿では,Tool-Augmented LLM向けに開発された最初のベンチマークであるAPI-Bankを紹介する。 API-Bankには、53の一般的なAPIツール、完全なツール拡張LLMワークフロー、264の注釈付き対話が含まれている。実験の結果, GPT-3.5はGPT3に対してツールを使用できるが, GPT-4はプランニング性能が優れていた。
論文参考訳（メタデータ） (Fri, 14 Apr 2023 14:05:32 GMT)
LLMのためのAPI利用ベンチマーク
データやコードは公開されているのだろうか？論文中にはリンクがなさそう。

2023年4月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30