2023年11月 – ページ 4 – arXiv最新論文の紹介

On the Opportunities of Green Computing: A Survey

On the Opportunities of Green Computing: A Survey [80.2]
人工知能(AI)は数十年にわたり、技術と研究において大きな進歩を遂げてきた。高いコンピューティングパワーの必要性は、より高い二酸化炭素排出量をもたらし、研究の公正性を損なう。コンピューティングリソースの課題とAIの環境への影響に取り組むため、グリーンコンピューティングはホットな研究トピックとなっている。
論文参考訳（メタデータ） (Thu, 9 Nov 2023 03:08:34 GMT)
これから重要なGreen Computingのサーベイ。「The latest version of Generative Pre-trained Transformers GPT-4 with 1.8 trillion parameters, can emit between 12,456 and 14,994 metric tons CO2e if it was trained on normal grid electricity in California,」とのこと。排出権買うだけで1億円以上と考えてよいんだろうか。

Causal Inference Using LLM-Guided Discovery

Causal Inference Using LLM-Guided Discovery [34.0]
グラフ変数(因果順序)に対する位相的順序は、因果効果の推論にのみ十分であることを示す。本稿では,Large Language Models (LLMs) から因果順序を求める頑健な手法を提案する。提案手法は発見アルゴリズムと比較して因果順序精度を大幅に向上させる。
論文参考訳（メタデータ） (Mon, 23 Oct 2023 17:23:56 GMT)
LLMを用いた因果推論のサポート、トリプルを作っていくアプローチで既存手法より性能が高いとのこと。
Fugu-MT 論文翻訳(概要): Causal Reasoning and Large Language Models: Opening a New Frontier for Causality (fugumt.com)でもあったが意外と相性が良い？

Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks

Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks [139.4]
Battle of the Backbones (BoB)は、ニューラルネットワークベースのコンピュータビジョンシステムのためのベンチマークツールである。視覚変換器(ViT)と自己教師型学習(SSL)がますます人気になっている。同じアーキテクチャと同じようなサイズの事前トレーニングデータセット上でのアップルとアプリケーションの比較では、SSLバックボーンは極めて競争力があることが分かりました。
論文参考訳（メタデータ） (Mon, 30 Oct 2023 18:23:58 GMT)
事前学習済みのバックボーンを様々なタスクで比較した論文。「Across the suite of comprehensive evaluations in BoB, spanning tasks, datasets, and settings (including ID and OOD), supervised ConvNeXt-Base, supervised SwinV2-Base trained using ImageNet-21k, and CLIP ViT-Base come out on top.」とのこと。端的にまとまっているのがありがたい。
リポジトリはGitHub – hsouri/Battle-of-the-Backbones

LLaVA-Interactive

LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing [99.8]
本システムは,マルチモーダルなユーザ入力を受信し,マルチモーダルな応答を生成することで,ユーザとのマルチターン対話を実現する。 LLaVA-Interactiveは言語プロンプトを超えており、視覚的プロンプトは、インタラクションにおける人間の意図を調整するために有効である。
論文参考訳（メタデータ） (Wed, 1 Nov 2023 15:13:43 GMT)
オープンソースな画像対応対話デモ環境、 LLaVA(visual chat), SEEM(interactive image segmentation),GLIGEN (grounded image generation and editing)の組み合わせ
リポジトリはLLaVA-Interactive (llava-vl.github.io)、GitHub – LLaVA-VL/LLaVA-Interactive-Demo: LLaVA-Interactive-Demo

Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents

Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents [121.5]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。 PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文参考訳（メタデータ） (Wed, 1 Nov 2023 03:20:16 GMT)
Plug-and-Play Dialogue Policy Planner (PPDPP)の提案、よくあるプロンプトベースのものより高性能とのこと。
リポジトリはhttps://github.com/dengyang17/PPDPPとのことだが、現時点では404

Myriad: multi-modal model by applying vision experts for industrial anomaly detection

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [82.2]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデル(Myriad)を提案する。具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLM) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
論文参考訳（メタデータ） (Sun, 29 Oct 2023 16:49:45 GMT)
たまに思う略称が厳しい感じの報告、multi-modal model by applying vision experts for industrial anomaly detectionとのこと…
成果は「Experiments show that our proposed Myriad not only achieves superior performance than both vision experts and state-of-the-art methods, but also provide detailed description for industrial anomaly detection.」で異常検知時に説明が出るのは重要。
リポジトリはGitHub – tzjtatata/Myriad: Open-sourced codes, IAD vision-language datasets and pre-trained checkpoints for Myriad.

GPT-4Vによるビデオ分析

MM-VID: Advancing Video Understanding with GPT-4V(ision) [113.6]
我々は、GPT-4Vの能力を利用して高度な映像理解を促進する統合システムMM-VIDを提案する。 MM-VIDは、長いビデオや1時間以内のコンテンツの推論のような複雑なタスクによって生じる課題に対処するために設計されている。ビデオゲームやグラフィックユーザインタフェースといったインタラクティブな環境に適用する際の可能性を示す。
論文参考訳（メタデータ） (Mon, 30 Oct 2023 17:44:09 GMT)
GPT-4Vを用いたビデオ対応、そもそも極めて高性能なバックボーンではあるが、(i) Multimodal Pre-Processing,(ii) External Knowledge Collection,(iii) Clip-Level Video Description Generation, (iv) Script Generationと凝ったパイプライン構成になっている。
プロジェクトサイトはMM-Vid: Advancing Video Understanding with GPT-4V(ision) (multimodal-vid.github.io)

WIMBD: WHAT’S IN MY BIG DATA?

What’s In My Big Data? [67.0]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What’s In My Big Data?)を提案する。 WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文参考訳（メタデータ） (Tue, 31 Oct 2023 17:59:38 GMT)
大規模言語データセットの探索と解析を容易にするツールセット、採用例が多いデータセットが入っている。「several datasets used for benchmarking models trained on such corpora are contaminated with respect to important benchmarks, including the Winograd Schema Challenge and parts of GLUE and SuperGLUE」などFindingsが面白い。
リポジトリはhttps://github.com/allenai/wimbdとのこと、プロジェクトサイトはWIMBD (allenai.org)

The Generative AI Paradox: “What It Can Create, It May Not Understand”

The Generative AI Paradox: “What It Can Create, It May Not Understand” [81.9]
生成AIの最近の波は、潜在的に超人的な人工知能レベルに対する興奮と懸念を引き起こしている。同時に、モデルは、専門家でない人でも期待できないような理解の基本的な誤りを示している。一見超人的な能力と、ごく少数の人間が起こすエラーの持続性を、どうやって再現すればよいのか?
論文参考訳（メタデータ） (Tue, 31 Oct 2023 18:07:07 GMT)
様々な軸での生成AIのテストと評価、「In particular, they imply that existing conceptualizations of intelligence, as derived from experience with humans, may not be applicable to artificial intelligence—although AI capabilities may resemble human intelligence, the capability landscape may diverge in fundamental ways from expected patterns based on humans.」という指摘が面白い。English benchmark for stress-testing machine ToM – arXiv最新論文の紹介 (devneko.jp)の時も思ったが知性って何だろう？と改めて不思議になる。

Multilingual Mathematical Reasoning

Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [98.2]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
論文参考訳（メタデータ） (Wed, 1 Nov 2023 06:56:14 GMT)
多言語版GSM8KのMGSM8KInstruct、同多言語版SVAMP なMSVAMPの作成と多言語で数学的問題が扱えるMathOctopusの提案。日本語が入っているのがうれしい。 rejection samplingを行うRFTの多言語版、Multilingual Rejection Sampling Fine-tuning (xRFT)が有効とのこと。
リポジトリはMathOctopus | Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations

2023年11月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30