arXiv最新論文の紹介

マルチモーダルな大規模言語モデルのサーベイ&チュートリアル

A Survey on Multimodal Large Language Models [56.8]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために、脳として強力な大規模言語モデルを使用する。 MLLMの驚くべき創発的能力、例えば画像に基づくストーリーの作成やOCRのない数学推論は、伝統的な手法ではまれである。
論文参考訳（メタデータ） (Fri, 23 Jun 2023 15:21:52 GMT)
マルチモーダルな大規模言語モデルのサーベイ。Multimodal Instruction Tuning (MIT)、Multimodal In-Context Learning (M-ICL)、 Multimodal Chain-of-Thought (M-CoT)、LLM-Aided Visual Reasoning (LAVR)のカテゴリで整理。LLMを中心に様々なトライがされていることが分かる。
リポジトリはGitHub – BradyFU/Awesome-Multimodal-Large-Language-Models: :sparkles::sparkles:Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation.で、この論文リストも相当価値が高い。

Large Multimodal Models: Notes on CVPR 2023 Tutorial [29.8]
このチュートリアルノートは、CVPR 2023 tutorial on recent Advances in Vision Foundation Models’ の一部である。視覚・言語モデリングのための最近のGPTのような大規模モデルについて,まずその背景を紹介する。前提条件として,大規模言語モデルにおけるインストラクションチューニングの基礎について述べる。最後に、オープンソースリソースを用いたマルチモーダルGPT-4のようなモデルの最小限のプロトタイプを構築する方法について説明する。
論文参考訳（メタデータ） (Mon, 26 Jun 2023 17:59:31 GMT)
CVPRのマルチモーダルモデルのチュートリアル
スライド：https://tinyurl.com/5c2c2mtm、動画[CVPR2023 Tutorial Talk] Large Multimodal Models: Towards Building and Surpassing Multimodal GPT-4 – YouTubeなどとても有用

ERNIE 3.5と XGen

Baiduから中国語の能力ではGPT-4を超えるというERNIE 3.5が発表された（Baidu Research）、ベンチマーク結果は独家：百度文心大模型3.5已内测应用，实测得分超ChatGPT (qq.com)で英語でもChatGPT(GPT-3.5)と競合する性能、中国語ではGPT-4を超える性能とのこと。

SaleseforceはXGenというオープンなLLMを発表（Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length (salesforceairesearch.com)）コンテキストが長く、オープンなLLMの中では優れた性能のよう。日本語に対応していそうな点も魅力的。リポジトリはGitHub – salesforce/xgen: Salesforce open-source LLMs with 8k sequence length.、モデルはSalesforce/xgen-7b-8k-base · Hugging Face

LLMの開発競争は続いている。モデルをオープンにする企業が多いのは非常にありがたい。

SearChain: Search-in-the-Chainのリポジトリ

Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks [108.2]
本稿では,情報検索 (IR) と大規模言語モデル (LLM) のインタラクションのための検索・イン・ザ・チェイン (SearChain) という新しいフレームワークを提案する。まず、LLMはChain-of-Query(CoQ)と呼ばれるグローバルな推論チェーンを生成し、各ノードはIR指向のクエリとクエリへの応答で構成される。第2に、IRは、CoQの各ノードの回答を検証し、IRが高い信頼を与えると、取得した情報と一致しない回答を補正する。第3に、LLMはCoQにおける不足した知識をマークすることができ、IRはこの知識を提供することができる
論文参考訳（メタデータ） (Mon, 26 Jun 2023 06:39:15 GMT)
SearChain: Search-in-the-Chain – arXiv最新論文の紹介 (devneko.jp)のアップデート、リポジトリが公開されている　GitHub – xsc1234/Search-in-the-Chain: Code for Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks

Recent Developments in Recommender Systems: A Survey

Recent Developments in Recommender Systems: A Survey [34.8]
この研究は、パーソナライズされたシステムやグループレコメンデーションシステムを含む、レコメンデーションシステムの主要な分類を包括的にまとめることから始まる。この調査は、レコメンデータシステムにおける堅牢性、データバイアス、公平性の問題を分析します。この研究は、リコメンデータシステムの開発における最新のトレンドについての洞察を提供し、この分野における今後の研究の方向性を浮き彫りにしている。
論文参考訳（メタデータ） (Thu, 22 Jun 2023 05:51:49 GMT)
レコメンデーションのサーベイ、ChatGPT関連の言及は最終章に若干ある程度ではあるが、高度化の流れや実装上の課題と対応を振り返るには良いサーベイ。

ChipGPT: How far are we from natural language hardware design

ChipGPT: How far are we from natural language hardware design [34.2]
この研究は、自然言語仕様からハードウェアロジック設計を生成するLLMを探索する自動設計環境の実証を試みる。 LLMをベースとしたスケーラブルな4段階ゼロコード論理設計フレームワークを提案する。
論文参考訳（メタデータ） (Mon, 19 Jun 2023 08:28:15 GMT)
ロジック設計にLLMを使おうという取り組み、段階的にうまくLLMを使っていくアプローチのよう。Verilogを通せばプログラムコードに近いわけでできそうな気はする。EDA toolsに組み込んで効果があったとのこと。

A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks

A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks [60.4]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。 Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文参考訳（メタデータ） (Sun, 11 Jun 2023 23:13:51 GMT)
Transformerの適用に関する総合的なサーベイ、分野としてNatural Language Processing, Computer Vision, Multi-Modal, Audio/Speech, Signal Processingを挙げ、様々な手法を紹介している。
時系列での手法進化を振り返るのに良いサーベイ

OpenOOD

OpenOOD v1.5: Enhanced Benchmark for Out-of-Distribution Detection [81.3]
アウト・オブ・ディストリビューション(OOD)検出は、オープンワールド・インテリジェントシステムの信頼性の高い運用に不可欠である。本稿では,OOD検出手法の精度,標準化,ユーザフレンドリな評価を保証したOpenOOD v1.5を提案する。
論文参考訳（メタデータ） (Sat, 17 Jun 2023 01:14:56 GMT)
Out of Distribution(OOD)検出のためのベンチマーク、リポジトリにある手法やタスク、データの整理が非常にわかりやすい
プロジェクトサイトはGitHub – Jingkang50/OpenOOD: Benchmarking Generalized Out-of-Distribution Detection

PyRCA: Root Cause Analysisライブラリ

PyRCA: A Library for Metric-based Root Cause Analysis [66.7]
PyRCAは、AIOps(AIOps)のためのRoot Cause Analysis(RCA)のオープンソースの機械学習ライブラリである。複雑なメトリクス因果依存性を明らかにし、インシデントの根本原因を自動的に特定する、包括的なフレームワークを提供する。
論文参考訳（メタデータ） (Tue, 20 Jun 2023 09:55:10 GMT)
インシデントの根本原因を探っていくためのRoot Cause Analysisのためのライブラリ
基本的には難しい問題のはずだが、この問題を取り扱うための素材はそろってきている感はある。
GitHub – salesforce/PyRCA: PyRCA: A Python Machine Learning Library for Root Cause Analysis

GPT-4とGPT-3.5の信頼性

DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models [76.8]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。評価の結果,信頼感の脅威に対する未公表の脆弱性が判明した。
論文参考訳（メタデータ） (Tue, 20 Jun 2023 17:24:23 GMT)
GPT-4とGPT-3.5の信頼性を検証した論文。通常はGPT-4の方が信頼性が高いが「GPT-4 is more vulnerable given jailbreaking system or user prompts」とのこと。GPT-4は（jailbreakingされた場合も）より忠実に命令に従おうとするためかもしれないとしている。90ページと長いが、非常に詳細な検証がなされていてとても勉強になる。
プロジェクトサイトはDecodingTrust Benchmark

Neural Machine Translation for the Indigenous Languages of the Americas: An Introduction

Neural Machine Translation for the Indigenous Languages of the Americas: An Introduction [102.1]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文参考訳（メタデータ） (Sun, 11 Jun 2023 23:27:47 GMT)
ILA: Indigenous Languages of the Americas、アメリカ大陸の先住民族の言語を対象とした機械翻訳に関するサーベイ。パラレルコーパスが少ない状況での構築手法が紹介されており参考になる。日本でも大事なトピックであり、技術的には近しいものが多いと感じる。

2026年2月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28