arXiv – ページ 88 – arXiv最新論文の紹介

You Don’t Need Robust Machine Learning to Manage Adversarial Attack Risks

You Don’t Need Robust Machine Learning to Manage Adversarial Attack Risks [31.1]
機械学習モデルを不規則な予測に変換する能力は驚くべきものだ。現行の緩和には高いコストが伴い、同時にモデルの精度が低下する。これは、実際にこれらの攻撃を緩和する方法、運用デプロイメントのリスク、そしてそれらのリスクをどのように管理するか、という視点で行われます。
論文参考訳（メタデータ） (Fri, 16 Jun 2023 16:32:27 GMT)
衝撃的なタイトルだが、「Our work elucidates that not all situations require robust machine learning to defend against adversarial attacks, and that a larger risk assessment should be performed.」「In real-life deployments, the cost of adding robustness may exceed its benefits.」とのことで結論は納得のいくものとなっている。不必要に頑張る必要はない。

Infinigen

Infinite Photorealistic Worlds using Procedural Generation [135.1]
インフィニゲン(Infinigen)は、自然界のフォトリアリスティックな3Dシーンのプロシージャジェネレータである。形状からテクスチャに至るまで、すべての資産はランダム化された数学的ルールによってゼロから生成される。
論文参考訳（メタデータ） (Mon, 26 Jun 2023 17:20:37 GMT)
美しい３Dシーンのジェネレータ。Deepでぽん的なアプローチではない。Real geometry、OSSと凄いソフトウェア。
プロジェクトサイトはHome | Infinigen、リポジトリはGitHub – princeton-vl/infinigen: Infinite Photorealistic Worlds using Procedural Generation

マルチモーダルな大規模言語モデルのサーベイ&チュートリアル

A Survey on Multimodal Large Language Models [56.8]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために、脳として強力な大規模言語モデルを使用する。 MLLMの驚くべき創発的能力、例えば画像に基づくストーリーの作成やOCRのない数学推論は、伝統的な手法ではまれである。
論文参考訳（メタデータ） (Fri, 23 Jun 2023 15:21:52 GMT)
マルチモーダルな大規模言語モデルのサーベイ。Multimodal Instruction Tuning (MIT)、Multimodal In-Context Learning (M-ICL)、 Multimodal Chain-of-Thought (M-CoT)、LLM-Aided Visual Reasoning (LAVR)のカテゴリで整理。LLMを中心に様々なトライがされていることが分かる。
リポジトリはGitHub – BradyFU/Awesome-Multimodal-Large-Language-Models: :sparkles::sparkles:Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation.で、この論文リストも相当価値が高い。

Large Multimodal Models: Notes on CVPR 2023 Tutorial [29.8]
このチュートリアルノートは、CVPR 2023 tutorial on recent Advances in Vision Foundation Models’ の一部である。視覚・言語モデリングのための最近のGPTのような大規模モデルについて,まずその背景を紹介する。前提条件として,大規模言語モデルにおけるインストラクションチューニングの基礎について述べる。最後に、オープンソースリソースを用いたマルチモーダルGPT-4のようなモデルの最小限のプロトタイプを構築する方法について説明する。
論文参考訳（メタデータ） (Mon, 26 Jun 2023 17:59:31 GMT)
CVPRのマルチモーダルモデルのチュートリアル
スライド：https://tinyurl.com/5c2c2mtm、動画[CVPR2023 Tutorial Talk] Large Multimodal Models: Towards Building and Surpassing Multimodal GPT-4 – YouTubeなどとても有用

ERNIE 3.5と XGen

Baiduから中国語の能力ではGPT-4を超えるというERNIE 3.5が発表された（Baidu Research）、ベンチマーク結果は独家：百度文心大模型3.5已内测应用，实测得分超ChatGPT (qq.com)で英語でもChatGPT(GPT-3.5)と競合する性能、中国語ではGPT-4を超える性能とのこと。

SaleseforceはXGenというオープンなLLMを発表（Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length (salesforceairesearch.com)）コンテキストが長く、オープンなLLMの中では優れた性能のよう。日本語に対応していそうな点も魅力的。リポジトリはGitHub – salesforce/xgen: Salesforce open-source LLMs with 8k sequence length.、モデルはSalesforce/xgen-7b-8k-base · Hugging Face

LLMの開発競争は続いている。モデルをオープンにする企業が多いのは非常にありがたい。

SearChain: Search-in-the-Chainのリポジトリ

Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks [108.2]
本稿では,情報検索 (IR) と大規模言語モデル (LLM) のインタラクションのための検索・イン・ザ・チェイン (SearChain) という新しいフレームワークを提案する。まず、LLMはChain-of-Query(CoQ)と呼ばれるグローバルな推論チェーンを生成し、各ノードはIR指向のクエリとクエリへの応答で構成される。第2に、IRは、CoQの各ノードの回答を検証し、IRが高い信頼を与えると、取得した情報と一致しない回答を補正する。第3に、LLMはCoQにおける不足した知識をマークすることができ、IRはこの知識を提供することができる
論文参考訳（メタデータ） (Mon, 26 Jun 2023 06:39:15 GMT)
SearChain: Search-in-the-Chain – arXiv最新論文の紹介 (devneko.jp)のアップデート、リポジトリが公開されている　GitHub – xsc1234/Search-in-the-Chain: Code for Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks

Recent Developments in Recommender Systems: A Survey

Recent Developments in Recommender Systems: A Survey [34.8]
この研究は、パーソナライズされたシステムやグループレコメンデーションシステムを含む、レコメンデーションシステムの主要な分類を包括的にまとめることから始まる。この調査は、レコメンデータシステムにおける堅牢性、データバイアス、公平性の問題を分析します。この研究は、リコメンデータシステムの開発における最新のトレンドについての洞察を提供し、この分野における今後の研究の方向性を浮き彫りにしている。
論文参考訳（メタデータ） (Thu, 22 Jun 2023 05:51:49 GMT)
レコメンデーションのサーベイ、ChatGPT関連の言及は最終章に若干ある程度ではあるが、高度化の流れや実装上の課題と対応を振り返るには良いサーベイ。

ChipGPT: How far are we from natural language hardware design

ChipGPT: How far are we from natural language hardware design [34.2]
この研究は、自然言語仕様からハードウェアロジック設計を生成するLLMを探索する自動設計環境の実証を試みる。 LLMをベースとしたスケーラブルな4段階ゼロコード論理設計フレームワークを提案する。
論文参考訳（メタデータ） (Mon, 19 Jun 2023 08:28:15 GMT)
ロジック設計にLLMを使おうという取り組み、段階的にうまくLLMを使っていくアプローチのよう。Verilogを通せばプログラムコードに近いわけでできそうな気はする。EDA toolsに組み込んで効果があったとのこと。

A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks

A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks [60.4]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。 Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文参考訳（メタデータ） (Sun, 11 Jun 2023 23:13:51 GMT)
Transformerの適用に関する総合的なサーベイ、分野としてNatural Language Processing, Computer Vision, Multi-Modal, Audio/Speech, Signal Processingを挙げ、様々な手法を紹介している。
時系列での手法進化を振り返るのに良いサーベイ

OpenOOD

OpenOOD v1.5: Enhanced Benchmark for Out-of-Distribution Detection [81.3]
アウト・オブ・ディストリビューション(OOD)検出は、オープンワールド・インテリジェントシステムの信頼性の高い運用に不可欠である。本稿では,OOD検出手法の精度,標準化,ユーザフレンドリな評価を保証したOpenOOD v1.5を提案する。
論文参考訳（メタデータ） (Sat, 17 Jun 2023 01:14:56 GMT)
Out of Distribution(OOD)検出のためのベンチマーク、リポジトリにある手法やタスク、データの整理が非常にわかりやすい
プロジェクトサイトはGitHub – Jingkang50/OpenOOD: Benchmarking Generalized Out-of-Distribution Detection

PyRCA: Root Cause Analysisライブラリ

PyRCA: A Library for Metric-based Root Cause Analysis [66.7]
PyRCAは、AIOps(AIOps)のためのRoot Cause Analysis(RCA)のオープンソースの機械学習ライブラリである。複雑なメトリクス因果依存性を明らかにし、インシデントの根本原因を自動的に特定する、包括的なフレームワークを提供する。
論文参考訳（メタデータ） (Tue, 20 Jun 2023 09:55:10 GMT)
インシデントの根本原因を探っていくためのRoot Cause Analysisのためのライブラリ
基本的には難しい問題のはずだが、この問題を取り扱うための素材はそろってきている感はある。
GitHub – salesforce/PyRCA: PyRCA: A Python Machine Learning Library for Root Cause Analysis

2024年10月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31