arXiv – ページ 209 – arXiv最新論文の紹介

Toolを使うFoundation Model、Tool-AugmentedなLLM

Tool Learning with Foundation Models [114.3]
基礎モデルの出現により、AIシステムは、人間としてのツールの使用に等しく適応できる可能性がある。その大きな可能性にもかかわらず、この分野における重要な課題、機会、そして将来の取り組みに関する包括的な理解はいまだに欠けている。
論文参考訳（メタデータ） (Mon, 17 Apr 2023 15:16:10 GMT)
ツールを使用する基盤モデルに関するサーベイ
外部知識活用からの自然な拡張な気はしつつ、すごく世界が広がる感覚がありとても興味深い
リポジトリはGitHub – OpenBMB/BMTools: Tool Learning for Big Models, Open-Source Solutions of ChatGPT-Plugins

API-Bank: A Benchmark for Tool-Augmented LLMs [48.7]
本稿では,Tool-Augmented LLM向けに開発された最初のベンチマークであるAPI-Bankを紹介する。 API-Bankには、53の一般的なAPIツール、完全なツール拡張LLMワークフロー、264の注釈付き対話が含まれている。実験の結果, GPT-3.5はGPT3に対してツールを使用できるが, GPT-4はプランニング性能が優れていた。
論文参考訳（メタデータ） (Fri, 14 Apr 2023 14:05:32 GMT)
LLMのためのAPI利用ベンチマーク
データやコードは公開されているのだろうか？論文中にはリンクがなさそう。

Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic Data

Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic Data [91.5]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文参考訳（メタデータ） (Fri, 7 Apr 2023 16:38:40 GMT)
利用が注目されている合成データに関する報告、サーベイ
プライバシー保護やデータ収集の手間など良い面はありつつ、そもそも生成できるのかなど課題は多い。

SportsMOT

SportsMOT: A Large Multi-Object Tracking Dataset in Multiple Sports Scenes [44.5]
本稿では,emphSportsMOTと呼ばれる多種多様なスポーツシーンにおける大規模多目的追跡データセットを提案する。 240のビデオシーケンス、150Kフレーム以上、およびバスケットボール、バレーボール、サッカーを含む3つのスポーツカテゴリーから収集された1.6M以上のバウンディングボックスで構成されている。本稿では,emphMixSortと呼ばれる新しい多対象追跡フレームワークを提案する。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 12:23:36 GMT)
スポーツを対象としたマルチオブジェクトトラッキングデータセット
動きが激しく、見た目での区別がつきそうでつかないという難しそうなデータだという印象
SportsMOT Dataset – DeeperAction

セキュリティ分野におけるグラフ分析のサーベイ

Graph Mining for Cybersecurity: A Survey [60.8]
マルウェア、スパム、侵入などのサイバー攻撃の爆発的な増加は、社会に深刻な影響をもたらした。従来の機械学習(ML)ベースの手法は、サイバー脅威の検出に広く用いられているが、現実のサイバーエンティティ間の相関をモデル化することはほとんどない。グラフマイニング技術の普及に伴い、サイバーエンティティ間の相関を捉え、高いパフォーマンスを達成するために、多くの研究者がこれらの手法を研究している。
論文参考訳（メタデータ） (Sun, 2 Apr 2023 08:43:03 GMT)
サイバーセキュリティにおけるグラフマイニング活用のサーベイ
ネットワークなどセキュリティに関わる要素とグラフ構造は相性が良いので活用が期待される（というかよく活用されている）分野

Fairness in Graph Mining

Fairness in Graph Mining: A Survey [36.3]
グラフマイニングアルゴリズムは、人間中心のアプリケーションで悪用された場合、特定の人口に対する差別につながる可能性がある。グラフ上の公平性の概念の新たな分類法を提案し,その関係や相違点に光を当てる。本稿では,グラフマイニングにおける公正性を促進する既存手法について概説する。
論文参考訳（メタデータ） (Tue, 11 Apr 2023 05:55:09 GMT)
利用が広がっているグラフマイニングにおける公平性サーベイ
グラフ構造分析の実応用ではSNSなどセンシティブなデータを持つものが想定されFairness関連の研究は重要

ESPnet-ST-v2

ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit [61.5]
ESPnet-ST-v2はオープンソースのESPnet-STツールキットを改良したものである。本稿では,ESPnet-ST-v2の裏側における全体的な設計,各タスクのサンプルモデル,パフォーマンスベンチマークについて述べる。
論文参考訳（メタデータ） (Tue, 11 Apr 2023 17:44:53 GMT)
ESPnetのバージョン2
GitHub – espnet/espnet: End-to-End Speech Processing Toolkit

MoocRadar

MoocRadar: A Fine-grained and Multi-aspect Knowledge Repository for Improving Cognitive Student Modeling in MOOCs [39.2]
MoocRadarは,2,513のエクササイズ質問,5,600の知識概念,1200万以上の行動記録からなる,きめ細かい多面的知識リポジトリである。具体的には,詳細な概念や認知ラベルの高品質かつ包括的アノテーションを保証する枠組みを提案する。
論文参考訳（メタデータ） (Wed, 5 Apr 2023 03:36:40 GMT)
MOOCに関連するデータセット。14,226人の学生のデータでもあり、この量が公開されているのはびっくり。
リポジトリはGitHub – THU-KEG/MOOC-Radar: The data and source code for the paper “MoocRadar: A Fine-grained and Multi-aspect Knowledge Repository for Improving Cognitive Student Modeling in MOOCs”

Segment Everything Everywhere All at Once

Segment Everything Everywhere All at Once [93.3]
SEEMは、全てを一度にイメージに分割するための、迅速でインタラクティブなモデルである。本論文では,SEEMについて述べる。SEEMは,任意の場所を一度に分割する,迅速かつインタラクティブなモデルである。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 17:59:40 GMT)
プロンプトに対応したセグメンテーションモデル、クリックなど言葉以外でのプロンプティングが可能
リポジトリはGitHub – UX-Decoder/Segment-Everything-Everywhere-All-At-Once: Official implementation of the paper “Segment Everything Everywhere All at Once”

ゼロショットなビデオ編集

Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [78.2]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 07:34:11 GMT)
vid2vidというゼロショットでのビデオ編集、画像ではできていたが動画でしかもフレーム間の一貫性をもって編集ができているように見える
GitHub – baaivision/vid2vid-zero: Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Modelsがリポジトリ、デモも存在Vid2vid Zero – a Hugging Face Space by BAAI

GPT-4関連

毎週GPT-4関連のニュースが多い。近い検証が多くの場所で行われているようで似た結論の報告もされている。別のグループから同じ結果が得られていると信頼性が上がるのでとてもありがたい。

Amazonが対抗モデルAmazon Titanをプレビュー中、その他スタートアップのモデルも利用可能とする、Dolly v2が登場、OpenAssistantのモデルがなどOpenAI以外の動きにも期待したい。

Announcing New Tools for Building with Generative AI on AWS | AWS Machine Learning Blog (amazon.com)

Free Dolly: Introducing the World’s First Open and Commercially Viable Instruction-Tuned LLM – The Databricks Blog

OpenAssistant (OpenAssistant) (huggingface.co)

AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [61.9]
我々は、人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGvalを紹介する。 GPT-4, ChatGPT, Text-Davinciなど, 最先端の基盤モデルの評価を行った。 GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 09:39:30 GMT)
AGI Evalというすごい名前のベンチマーク。面白いベンチマークではあるが一般に公開されSNSやBlog、ニュース記事等で言及されていそうなものはLeakのリスクが高いような気もする。
リポジトリはGitHub – microsoft/AGIEval

Interpretable Unified Language Checking [42.8]
本稿では,人間と機械生成言語の両方に対して,解釈可能で統一された言語チェック(UniLC)手法を提案する。ファクトチェック, ステレオタイプ検出, ヘイトスピーチ検出タスクの組み合わせにより, LLM は高い性能が得られることがわかった。
論文参考訳（メタデータ） (Fri, 7 Apr 2023 16:47:49 GMT)
チェックにLLMを使う提案。Interpretable・・・？
GitHub – luohongyin/UniLC: Interpretable unified language safety checking with large language models

ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.2]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 10:59:39 GMT)
上記同様ゼロショットでChatGPTを評価用に使用するもの。LLMはEvaluationにも有効という報告は別にもあり、有望そうなことが分かる
「its great potential for factual inconsistency evaluation」としている。

ChatGPT-4 Outperforms Experts and Crowd Workers in Annotating Political Twitter Messages with Zero-Shot Learning [0.0]
本稿では、ツイートの内容に基づいて、Twitterポスターの政治的関連を分類するテキスト分析タスクにおいて、Large Language Model (LLM) ChatGPT-4の精度、信頼性、バイアスを評価する。 2020年の大統領選挙では、米国政治家のTwitterメッセージを使い、正確さを測定するための根拠となる真実を提供します。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 14:51:40 GMT)
GPT-4がクラウドワーカーより優れた性能との指摘
Fugu-MT 論文翻訳(概要): ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks (fugumt.com) でも同様の指摘がある

ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning [70.6]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文参考訳（メタデータ） (Wed, 12 Apr 2023 05:08:52 GMT)
ChatGPTの英語以外の性能検証、対象タスクはPart-of-Speech Tagging, Named Entity Recognition, Relation Extraction, Natural Language Inference, Question Answering, Common Sense Reasoning, Summarization
残念ながら日本語が検証対象になっていないがリソース別の比較から類推はできそう？（ChatGPTの言語比率が謎なので本当に類推しかできないが・・・）
タスクによってもまちまちではあるが英語での性能が高いことが分かる。（この辺りは実感にも反していない）

Toxicity in ChatGPT: Analyzing Persona-assigned Language Models [23.5]
大規模言語モデル(LLM)は驚くべき能力を示し、自然言語処理(NLP)コミュニティを超越した。一般的な対話型LLMであるChatGPTの50万世代以上で毒性を系統的に評価した。その結果,ChatGPTのシステムパラメータをペルソナに割り当てることで,生成の毒性が著しく向上することが判明した。
論文参考訳（メタデータ） (Tue, 11 Apr 2023 16:53:54 GMT)
ペルソナを割り当てることでよろしくない出力を出せるという報告。これ自体はSNSでも話題になっているが体系的に調査されている点が素晴らしい。
特定の人名で攻撃性が増すなどするとその人の名誉を傷つけるかもしれないという指摘は重い。

Multi-step Jailbreaking Privacy Attacks on ChatGPT [34.3]
本稿では,ChatGPTによって強化されたOpenAIのモデルAPIとNew Bingのプライバシー上の脅威について検討する。我々は、当社の主張を裏付ける広範な実験を行い、LLMのプライバシーへの影響について論じる。
論文参考訳（メタデータ） (Tue, 11 Apr 2023 13:05:04 GMT)
ChatGPTから個人情報を抽出するための攻撃。
強力であるがゆえに悪用もでき、それ自体での防御は難しそうな印象。このような攻撃をサニタイズするのもしんどそう（用途が特定されていればガードはできそうだが、一般的な対処は簡単ではなさそう）

Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [57.1]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。本稿では, MMT における LLM の利点と課題を体系的に検討する。我々は102言語でXGLM, OPT, BLOOMZ, ChatGPTなどの人気のあるLLMを評価した。
論文参考訳（メタデータ） (Mon, 10 Apr 2023 15:51:30 GMT)
LLMに対する機械翻訳性能の評価
言語タイプの差異、プロンプトの差異など非常に参考になる。ChatGPTであっても多くの言語ペアでNLLBに及ばないとの結果。
「BLOOMZ may have seen test cases in Flores-101 during training」という式がされていてLeakの危険を指摘している。様々なデータを使う事自体を悪いと言うのは難しいが、評価が困難になる…

ChatPipe: Orchestrating Data Preparation Program by Optimizing Human-ChatGPT Interactions [17.7]
ChatPipeは、ユーザとChatGPT間のシームレスなインタラクションを容易にするように設計された、新しいシステムである。 ChatPipeは、次のデータ準備操作に対して効果的なレコメンデーションを提供し、ChatGPTをガイドしてオペレーションのプログラムを生成する。われわれはChatPipe用のWebアプリケーションを開発し、Kaggleから現実のMLタスクを複数用意した。
論文参考訳（メタデータ） (Fri, 7 Apr 2023 08:33:08 GMT)
データ準備のためのアプリケーション
色々組み合わせ、プロンプトを工夫し、…と実アプリケーションを作るのは結構大変だなと思う内容（とはいえ実態はこんな感じだとも思う）

2026年7月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31