arXiv最新論文の紹介

GPT-4関連

毎週GPT-4関連のニュースが多い。近い検証が多くの場所で行われているようで似た結論の報告もされている。別のグループから同じ結果が得られていると信頼性が上がるのでとてもありがたい。

Amazonが対抗モデルAmazon Titanをプレビュー中、その他スタートアップのモデルも利用可能とする、Dolly v2が登場、OpenAssistantのモデルがなどOpenAI以外の動きにも期待したい。

Announcing New Tools for Building with Generative AI on AWS | AWS Machine Learning Blog (amazon.com)

Free Dolly: Introducing the World’s First Open and Commercially Viable Instruction-Tuned LLM – The Databricks Blog

OpenAssistant (OpenAssistant) (huggingface.co)

AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [61.9]
我々は、人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGvalを紹介する。 GPT-4, ChatGPT, Text-Davinciなど, 最先端の基盤モデルの評価を行った。 GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 09:39:30 GMT)
AGI Evalというすごい名前のベンチマーク。面白いベンチマークではあるが一般に公開されSNSやBlog、ニュース記事等で言及されていそうなものはLeakのリスクが高いような気もする。
リポジトリはGitHub – microsoft/AGIEval

Interpretable Unified Language Checking [42.8]
本稿では,人間と機械生成言語の両方に対して,解釈可能で統一された言語チェック(UniLC)手法を提案する。ファクトチェック, ステレオタイプ検出, ヘイトスピーチ検出タスクの組み合わせにより, LLM は高い性能が得られることがわかった。
論文参考訳（メタデータ） (Fri, 7 Apr 2023 16:47:49 GMT)
チェックにLLMを使う提案。Interpretable・・・？
GitHub – luohongyin/UniLC: Interpretable unified language safety checking with large language models

ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.2]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 10:59:39 GMT)
上記同様ゼロショットでChatGPTを評価用に使用するもの。LLMはEvaluationにも有効という報告は別にもあり、有望そうなことが分かる
「its great potential for factual inconsistency evaluation」としている。

ChatGPT-4 Outperforms Experts and Crowd Workers in Annotating Political Twitter Messages with Zero-Shot Learning [0.0]
本稿では、ツイートの内容に基づいて、Twitterポスターの政治的関連を分類するテキスト分析タスクにおいて、Large Language Model (LLM) ChatGPT-4の精度、信頼性、バイアスを評価する。 2020年の大統領選挙では、米国政治家のTwitterメッセージを使い、正確さを測定するための根拠となる真実を提供します。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 14:51:40 GMT)
GPT-4がクラウドワーカーより優れた性能との指摘
Fugu-MT 論文翻訳(概要): ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks (fugumt.com) でも同様の指摘がある

ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning [70.6]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文参考訳（メタデータ） (Wed, 12 Apr 2023 05:08:52 GMT)
ChatGPTの英語以外の性能検証、対象タスクはPart-of-Speech Tagging, Named Entity Recognition, Relation Extraction, Natural Language Inference, Question Answering, Common Sense Reasoning, Summarization
残念ながら日本語が検証対象になっていないがリソース別の比較から類推はできそう？（ChatGPTの言語比率が謎なので本当に類推しかできないが・・・）
タスクによってもまちまちではあるが英語での性能が高いことが分かる。（この辺りは実感にも反していない）

Toxicity in ChatGPT: Analyzing Persona-assigned Language Models [23.5]
大規模言語モデル(LLM)は驚くべき能力を示し、自然言語処理(NLP)コミュニティを超越した。一般的な対話型LLMであるChatGPTの50万世代以上で毒性を系統的に評価した。その結果,ChatGPTのシステムパラメータをペルソナに割り当てることで,生成の毒性が著しく向上することが判明した。
論文参考訳（メタデータ） (Tue, 11 Apr 2023 16:53:54 GMT)
ペルソナを割り当てることでよろしくない出力を出せるという報告。これ自体はSNSでも話題になっているが体系的に調査されている点が素晴らしい。
特定の人名で攻撃性が増すなどするとその人の名誉を傷つけるかもしれないという指摘は重い。

Multi-step Jailbreaking Privacy Attacks on ChatGPT [34.3]
本稿では,ChatGPTによって強化されたOpenAIのモデルAPIとNew Bingのプライバシー上の脅威について検討する。我々は、当社の主張を裏付ける広範な実験を行い、LLMのプライバシーへの影響について論じる。
論文参考訳（メタデータ） (Tue, 11 Apr 2023 13:05:04 GMT)
ChatGPTから個人情報を抽出するための攻撃。
強力であるがゆえに悪用もでき、それ自体での防御は難しそうな印象。このような攻撃をサニタイズするのもしんどそう（用途が特定されていればガードはできそうだが、一般的な対処は簡単ではなさそう）

Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [57.1]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。本稿では, MMT における LLM の利点と課題を体系的に検討する。我々は102言語でXGLM, OPT, BLOOMZ, ChatGPTなどの人気のあるLLMを評価した。
論文参考訳（メタデータ） (Mon, 10 Apr 2023 15:51:30 GMT)
LLMに対する機械翻訳性能の評価
言語タイプの差異、プロンプトの差異など非常に参考になる。ChatGPTであっても多くの言語ペアでNLLBに及ばないとの結果。
「BLOOMZ may have seen test cases in Flores-101 during training」という式がされていてLeakの危険を指摘している。様々なデータを使う事自体を悪いと言うのは難しいが、評価が困難になる…

ChatPipe: Orchestrating Data Preparation Program by Optimizing Human-ChatGPT Interactions [17.7]
ChatPipeは、ユーザとChatGPT間のシームレスなインタラクションを容易にするように設計された、新しいシステムである。 ChatPipeは、次のデータ準備操作に対して効果的なレコメンデーションを提供し、ChatGPTをガイドしてオペレーションのプログラムを生成する。われわれはChatPipe用のWebアプリケーションを開発し、Kaggleから現実のMLタスクを複数用意した。
論文参考訳（メタデータ） (Fri, 7 Apr 2023 08:33:08 GMT)
データ準備のためのアプリケーション
色々組み合わせ、プロンプトを工夫し、…と実アプリケーションを作るのは結構大変だなと思う内容（とはいえ実態はこんな感じだとも思う）

GOAL: knowledgeGrounded videO cAptioning benchmark for reaLtime soccer commentary generation

GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary Generation [42.0]
我々は,KGVC(Knowledge-grounded Video Captioning)として,サッカービデオクリップ8.9k,文22k,知識3分の3以上のベンチマークを提示する。我々は,既存の手法を実験的に適用し,この課題の解決の難しさと可能性を示す。
論文参考訳（メタデータ） (Sun, 26 Mar 2023 08:43:36 GMT)
かなり無理やり感のある略称のベンチマークデータセット。規模が大きく面白いものではあるが、略称が（以下略）
KGVC: knowledgegrounded video captioningタスクとしてかなり難しいデータであるとのこと（そもそもこのタスクは相当困難な気はする）
Our dataset will be publicly available after reviewらしい

Data-centric AIに関するサーベイ

同じ研究グループによる（と思われる）Data中心AIに関するサーベイが出ていた。コンパクトな概要とFullのサーベイという印象。両方とも（著者らによる）GitHub – daochenzha/data-centric-AI: A curated, but incomplete, list of data-centric AI resources.を参照している

ChatGPTに関する言及もあり、人間による高品質なデータの重要性を主張している

Data-centric AI: Perspectives and Challenges [51.7]
データ中心AI(DCAI)は、モデル進歩からデータ品質と信頼性の確保への根本的なシフトを提唱している。データ開発、推論データ開発、データメンテナンスの3つの一般的なミッションをまとめます。
論文参考訳（メタデータ） (Sun, 2 Apr 2023 05:18:56 GMT)
5ページとコンパクトな概要

Data-centric Artificial Intelligence: A Survey [47.2]
近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。本稿では,データ中心型AIの必要性について論じ,続いて3つの一般的なデータ中心型目標の全体像を考察する。これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査である、と私たちは信じています。
論文参考訳（メタデータ） (Sun, 2 Apr 2023 04:43:32 GMT)
39ページ、引用数300近くとフルのサーベイ

ParroT: ChatGPTスタイルの翻訳システム

ParroT: Translating During Chat Using Large Language Models [50.7]
ParroTはチャット中の翻訳機能を強化し、規制するフレームワークである。具体的には、ParroTは、翻訳データを命令フォロースタイルに書き換える。本稿では,ParroTモデルを微調整するための3つの命令タイプを提案する。
論文参考訳（メタデータ） (Wed, 5 Apr 2023 13:12:00 GMT)
ChatGPTで行う翻訳のようにヒント（翻訳にあたっての指示）を入れ込むフレームワーク。LLaMA-7bをベースに実験している。
面白い研究ではあるが絶対的な性能はイマイチのような気もしつつ、とはいえ使っているパラレルコーパスのデータ量を考えるとすごいとも言えるという感想
FuguMT Chatもつくってみようかなと思わなくもない
リポジトリはGitHub – wxjiao/ParroT: The ParroT framework to enhance and regulate the Translation Abilities during Chat based on open-sourced LLMs (e.g., LLaMA-7b) and human written translation and evaluation data.

Diffusion Models in Vision: A Survey

Diffusion Models in Vision: A Survey [80.8]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文参考訳（メタデータ） (Thu, 23 Mar 2023 11:42:58 GMT)
非常にはやっているDiffusionモデルのサーベイ
タスクも手法も非常に多く把握するのが大変な状況。。。

Large language models effectively leverage document-level context for literary translation, but critical errors persist

Large language models effectively leverage document-level context for literary translation, but critical errors persist [32.5]
大規模言語モデル(LLM)は、幅広い文レベルの翻訳データセット上での最先端技術と競合する。我々は,Gpt-3.5 (text-davinci-003) LLM) を用いて文節全体を翻訳し,高品質な翻訳を行うという厳密な評価を通して示す。
論文参考訳（メタデータ） (Thu, 6 Apr 2023 17:27:45 GMT)
GPT-3.5を用いて文レベル、段落レベルの翻訳を検証した論文。18言語ペア（日本語含む）と広い検証で人間による評価が行われていることも特徴的。（一方で有名な作品を利用するのはリークの危険が…という気もしている。）
リポジトリはGitHub – marzenakrp/LiteraryTranslation

Your Diffusion Model is Secretly a Zero-Shot Classifier

Your Diffusion Model is Secretly a Zero-Shot Classifier [83.3]
大規模なテキスト・画像拡散モデルからの密度推定は、追加の訓練をすることなくゼロショット分類を行うことができることを示す。分類への我々の生成的アプローチは、様々なベンチマークにおいて強力な結果を得ることができ、拡散モデルから知識を抽出する代替手法よりも優れている。
論文参考訳（メタデータ） (Tue, 28 Mar 2023 17:59:56 GMT)
Diffusion Modelを分類器として使えるという報告。結果には全く違和感はないが、Synthetic SD Data（Diffusion Modelからの合成データを用いるアプローチ）をはるかに超える性能を出しているのはすごい。
リポジトリはDiffusion Classifier (diffusion-classifier.github.io)

大規模言語モデルのサーベイ

A Survey of Large Language Models [81.1]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文参考訳（メタデータ） (Fri, 31 Mar 2023 17:28:46 GMT)
大規模言語モデルのサーベイ
有名なモデルの開発時期や（公開されている範囲での）データ、規模、計算リソースなどがまとまっているのが非常にありがたい。数多くのモデルが作られていることと近年のLLMのアーキテクチャは概ね同じであることが分かる。
リポジトリはGitHub – RUCAIBox/LLMSurvey: A collection of papers and resources related to Large Language Models.　、図がとても良い

MGTBench: Machine-Generated Textの検出ベンチマーク

MGTBench: Benchmarking Machine-Generated Text Detection [27.7]
大規模言語モデル(LLM)は、人間によって書かれたテキストと区別が難しいような、人間のような言語を生成することができる。 MGTに対する既存の検出方法は、異なるモデルアーキテクチャ、データセット、実験的な設定で評価される。我々はMGTBenchというMGT検出のための最初のベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (Sun, 26 Mar 2023 21:12:36 GMT)
機械で生成されたテキストを検出可能かのベンチマーク。GitHub – Hello-SimpleAI/chatgpt-comparison-detection: Human ChatGPT Comparison Corpus (HC3), Detectors, and more! 🔥が好成績とのこと。一方で「We ﬁnd that, with only small perturbations on the MGTs, ChatGPT Detector can be easily bypassed」という記載は気になる。
リポジトリはGitHub – xinleihe/MGTBench

Segment Anything

Segment Anything [108.2]
私たちはこれまでで最大のセグメンテーションデータセットを構築し、1100万ライセンスのマスクを10億枚以上使用し、画像のプライバシーを尊重しています。このモデルは、高速に撮影できるように設計および訓練されており、ゼロショットを新しい画像配信やタスクに転送することができる。多数のタスクでその能力を評価した結果、ゼロショット性能は印象的であることが判明した。
論文参考訳（メタデータ） (Wed, 5 Apr 2023 17:59:46 GMT)
強力なセグメンテーションモデルの提案。ゼロショットでテキストに対応したセグメンテーションも可能。イメージエンコーダ、プロンプトエンコーダ、マスクデコーダから構成されTransformerベース。
プログラムサイトはSegment Anything | Meta AI (segment-anything.com)、データセットも公開されているSA-1B Dataset (facebook.com)。

2026年7月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31