- Supporting Human-AI Collaboration in Auditing LLMs with LLMs [10.1]
大きな言語モデルは偏見があり、無責任に振る舞うことが示されている。 これらの言語モデルを厳格に監査することは重要である。 既存の監査ツールは、人間とAIの両方を活用して失敗を見つける。
論文 参考訳(メタデータ) (Wed, 19 Apr 2023 21:59:04 GMT) - LLMの監査ツール、
- リポジトリはGitHub – microsoft/adatest at AdaTest++
AIOpsのサーベイ
- AI for IT Operations (AIOps) on Cloud Platforms: Reviews, Opportunities and Challenges [60.6]
IT運用のための人工知能(AIOps)は、AIのパワーとIT運用プロセスが生成するビッグデータを組み合わせることを目的としている。 我々は、IT運用活動が発信する重要なデータの種類、分析における規模と課題、そしてどのように役立つかについて深く議論する。 主要なAIOpsタスクは、インシデント検出、障害予測、根本原因分析、自動アクションに分類します。
論文 参考訳(メタデータ) (Mon, 10 Apr 2023 15:38:12 GMT) - AIOpsのサーベイ、AIOpsの定義は「AIOps combines big data and machine learning to automate IT operations processes, including event correlation, anomaly detection and causality determination」とのこと。
- 監視部分には(マルチモーダルな)LLMが入ったりしていくんだろうなと思わなくもない。
LLM as A Robotic Brain
- LLM as A Robotic Brain: Unifying Egocentric Memory and Control [77.1]
Embodied AIは、物理的または仮想的なエンボディメント(つまりロボット)を持つインテリジェントシステムの研究と開発に焦点を当てている。 メモリとコントロールは、具体化されたシステムの2つの不可欠な部分であり、通常、それぞれをモデル化するために別々のフレームワークを必要とします。 ロボット脳として大規模言語モデルを用いて,エゴセントリックな記憶と制御を統一するLLM-Brainという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (Wed, 19 Apr 2023 00:08:48 GMT) - LLMのゼロショット性能を活用したロボットの行動計画&制御
- 記憶と世界モデル的な部分をLLMに担当させているとのこと
XWikiGen
- XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation in Low Resource Languages [11.6]
ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。 本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクであるXWikiGenを提案する。
論文 参考訳(メタデータ) (Tue, 18 Apr 2023 09:38:59 GMT) - Crosslingualな要約タスク、mBARTの成績が良い(LLM系は検証対象とされていない?)
- リポジトリはGitHub – DhavalTaunk08/XWikiGen: Codebase for the paper XWikiGen
Multimodal C4
- Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text [104.0]
テキスト内ビジョンやFlamingoのような言語モデルは、任意のインターリーブされた画像とテキストのシーケンスを入力としてサポートする。 このインターフェースをサポートするために、インターリーブされた画像+テキストを含むウェブコーパス上でプレトレーニングが行われる。 我々はMultimodal C4 (mmc4) をリリースした。
論文 参考訳(メタデータ) (Fri, 14 Apr 2023 06:17:46 GMT) - 非常にありがたいマルチモーダルなデータセット。103Mドキュメント、585Mイメージ、43Btokenと大規模。
- 「mmc4 is constructed from public webpages contained in the cleaned English c4 corpus.」とのことで日本語はほぼ入っていなさそう・・・
- プロジェクトサイトはGitHub – allenai/mmc4: MultimodalC4 is a multimodal extension of c4 that interleaves millions of images with text.
今週のGPT周辺
GPT関連の論文はとても多い。
オープンな動きとしてはStability AIの大規模言語モデルが登場したのが大きいかなと思う。日本語対応はイマイチという話はあるが、画像生成ではオープンなモデル登場以降様々な派生モデルが登場しており、そういった動きに期待したい。主としてオープンなLLM関連の情報を集積しているリポジトリも公開されている。
Stability AI 言語モデル「StableLM Suite」の第一弾をリリース – (英語Stability AI
- Analyzing ChatGPT’s Aptitude in an Introductory Computer Engineering Course [6.5]
ChatGPTは、様々な質問に対して可塑性で人間に聞こえるテキストを生成できるツールである。 この研究は、初歩的なコンピュータ工学コースにおいて、クイズ、宿題、試験、実験室の質問に答えることにおけるChatGPTの適性を評価する。
論文 参考訳(メタデータ) (Fri, 14 Apr 2023 13:33:42 GMT) - コンピュータエンジニアリングの講義を対象にしたChatGPTの評価。「solutions to homework questions were much less accurate.」で理由は画像等に対応できないからではないか?とのこと。GPT-4でマルチモーダル入力が使えるようになったらどうなるか興味がある。
- リポジトリはGitHub – caslab-code/openai-eeng201-solution-generator: Experimenting with using OpenAI to generate solution to homework, quiz, lab, and exam questions in EENG 201.
- ImpressionGPT: An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [44.3]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。 近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。 これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (Mon, 17 Apr 2023 17:13:42 GMT) - radiology report summarizationタスクにおけるGPT系モデルの利用
- 動的なプロンプト作成など実利用でも参考になるかも
- Why Does ChatGPT Fall Short in Answering Questions Faithfully? [9.6]
複雑なオープンドメイン質問応答におけるChatGPTの失敗の解析を行う。 我々は、QA失敗に関連する3つの重要な能力(知識、知識関連、知識推論)を特定します。 その結果, モデルに詳細な外部知識を付与し, 知識関連を示唆し, 推論の指導を行うことで, モデルをより忠実に解答できる可能性が示唆された。
論文 参考訳(メタデータ) (Thu, 20 Apr 2023 17:48:43 GMT) - ChatGPTの間違い分析
- 外部知識を正しく与えるべきなど、よく言われている対応の良さがわかる。その他の知見も参考になる
- Can ChatGPT Reproduce Human-Generated Labels? A Study of Social Computing Tasks [9.7]
ChatGPTは、ソーシャルコンピューティングタスクにおいて人為的なラベルアノテーションを再現する可能性がある。 姿勢検出(2x)、感情分析、ヘイトスピーチ、ボット検出の5つのセミナルデータセットを再ラベルした。 この結果から,ChatGPTはこれらのデータアノテーションタスクを処理できる可能性を秘めていますが,いくつかの課題が残っています。
論文 参考訳(メタデータ) (Thu, 20 Apr 2023 08:08:12 GMT) - ラベル付けの話題。こちらも毎週取り上げているが概ね近い結果だが、タスクによって性能に差があることが興味深い。「However, in less objective cases such as bot detection, ChatGPT performs relatively weaker.」との記載がされている。
- LLM-based Interaction for Content Generation: A Case Study on the Perception of Employees in an IT department [85.2]
本稿では,IT企業の従業員が生成ツールを使用する意図を明らかにするためのアンケート調査を行う。 以上の結果から, 生成ツールの比較的平均的な受容性が示唆されるが, ツールが有用であると認識されるほど, 意図が高くなることが示唆された。 分析の結果, 生産ツールの利用頻度は, 従業員が作業の文脈でこれらのツールをどのように認識しているかを理解する上で重要な要因である可能性が示唆された。
論文 参考訳(メタデータ) (Tue, 18 Apr 2023 15:35:43 GMT) - LLMに関するアンケート調査結果。回答数があまり多くなく有用かは疑問。
- Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4 [14.9]
この記事では、LogiQAやReClorといった一般的なベンチマークと、新たにリリースされたAR-LSATなどのデータセットを用いて、複数の論理推論データセットを分析します。 我々は、論理的推論を必要とするベンチマークを用いて、多選択読解と自然言語推論タスクをテストする。 実験結果から,ChatGPTは,ほとんどの論理的推論ベンチマークにおいて,RoBERTaファインチューニング法よりも優れた性能を示した。
論文 参考訳(メタデータ) (Thu, 20 Apr 2023 15:25:44 GMT) - logical reasoningにおける評価。ChatGPTは高い性能をしめし、GPT-4はさらにそれを上回る。
- ChatGPTの時点でRoBERTaのfine tuningを上回っているのはやや意外。また、GPT-4でも(ReClorを除き)人間のパフォーマンスとは大きな差がある。「However, the performance drops significantly when handling newly released and out-of-distribution datasets.」という指摘が印象的(leak…?)。全体的な結論は「Besides, ChatGPT and GPT-4 do not perform astonishingly well on the natural language inference task requiring logical reasoning.」とのこと。
- ベンチマークが公開されている GitHub – csitfun/LogiEval: a benchmark suite for testing logical reasoning abilities of prompt-based models
- Learning to Program with Natural Language [82.0]
本稿では,タスクプロシージャを記述するために,自然言語を新しい言語として用いることを提案する。 AMPSとMathデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (Thu, 20 Apr 2023 17:09:12 GMT) - データから自然言語を使ったタスクの解決手順(を示すためのプロンプト
を学習するという話 - リポジトリはGitHub – microsoft/NaturalLanguageProgram: Learning to Program with Natural Language
- GPT-NER: Named Entity Recognition via Large Language Models [50.7]
GPT-NERはシーケンスラベリングタスクを言語モデルで容易に適用可能な生成タスクに変換する。 GPT-NERは、トレーニングデータの量が極めて少ない場合、低リソースかつ少数ショットのセットアップにおいて、より優れた能力を示す。 これは、ラベル付きサンプルの数が限られている実世界のNERアプリケーションにおけるGPT-NERの機能を示す。
論文 参考訳(メタデータ) (Thu, 20 Apr 2023 16:17:26 GMT) - 苦手かもと言われていたシーケンスラベリングタスクへの対応。使っていく様々なテクニックが参考になるのと、結果的にうまくLLMを使うことで優れた性能を発揮できている。
- GitHub – ShuheWang1998/GPT-NER
Toolを使うFoundation Model、Tool-AugmentedなLLM
- Tool Learning with Foundation Models [114.3]
基礎モデルの出現により、AIシステムは、人間としてのツールの使用に等しく適応できる可能性がある。 その大きな可能性にもかかわらず、この分野における重要な課題、機会、そして将来の取り組みに関する包括的な理解はいまだに欠けている。
論文 参考訳(メタデータ) (Mon, 17 Apr 2023 15:16:10 GMT) - ツールを使用する基盤モデルに関するサーベイ
- 外部知識活用からの自然な拡張な気はしつつ、すごく世界が広がる感覚がありとても興味深い
- リポジトリはGitHub – OpenBMB/BMTools: Tool Learning for Big Models, Open-Source Solutions of ChatGPT-Plugins
- API-Bank: A Benchmark for Tool-Augmented LLMs [48.7]
本稿では,Tool-Augmented LLM向けに開発された最初のベンチマークであるAPI-Bankを紹介する。 API-Bankには、53の一般的なAPIツール、完全なツール拡張LLMワークフロー、264の注釈付き対話が含まれている。 実験の結果, GPT-3.5はGPT3に対してツールを使用できるが, GPT-4はプランニング性能が優れていた。
論文 参考訳(メタデータ) (Fri, 14 Apr 2023 14:05:32 GMT) - LLMのためのAPI利用ベンチマーク
- データやコードは公開されているのだろうか?論文中にはリンクがなさそう。
Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic Data
- Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic Data [91.5]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。 合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (Fri, 7 Apr 2023 16:38:40 GMT) - 利用が注目されている合成データに関する報告、サーベイ
- プライバシー保護やデータ収集の手間など良い面はありつつ、そもそも生成できるのかなど課題は多い。
SportsMOT
- SportsMOT: A Large Multi-Object Tracking Dataset in Multiple Sports Scenes [44.5]
本稿では,emphSportsMOTと呼ばれる多種多様なスポーツシーンにおける大規模多目的追跡データセットを提案する。 240のビデオシーケンス、150Kフレーム以上、およびバスケットボール、バレーボール、サッカーを含む3つのスポーツカテゴリーから収集された1.6M以上のバウンディングボックスで構成されている。 本稿では,emphMixSortと呼ばれる新しい多対象追跡フレームワークを提案する。
論文 参考訳(メタデータ) (Thu, 13 Apr 2023 12:23:36 GMT) - スポーツを対象としたマルチオブジェクトトラッキングデータセット
- 動きが激しく、見た目での区別がつきそうでつかないという難しそうなデータだという印象
- SportsMOT Dataset – DeeperAction
セキュリティ分野におけるグラフ分析のサーベイ
- Graph Mining for Cybersecurity: A Survey [60.8]
マルウェア、スパム、侵入などのサイバー攻撃の爆発的な増加は、社会に深刻な影響をもたらした。 従来の機械学習(ML)ベースの手法は、サイバー脅威の検出に広く用いられているが、現実のサイバーエンティティ間の相関をモデル化することはほとんどない。 グラフマイニング技術の普及に伴い、サイバーエンティティ間の相関を捉え、高いパフォーマンスを達成するために、多くの研究者がこれらの手法を研究している。
論文 参考訳(メタデータ) (Sun, 2 Apr 2023 08:43:03 GMT) - サイバーセキュリティにおけるグラフマイニング活用のサーベイ
- ネットワークなどセキュリティに関わる要素とグラフ構造は相性が良いので活用が期待される(というかよく活用されている)分野