- BMIKE-53: Investigating Cross-Lingual Knowledge Editing with In-Context Learning [43.1]
知識編集(KE)は、大規模言語モデルの知識を更新するための有効なソリューションとして登場した。 3種類のKEタスクタイプにわたる53の多言語における言語間KE評価のためのBMIKE-53ベンチマークを提案する。 本評価では,信頼性,汎用性,局所性,可搬性の観点から,言語間知識伝達に着目した。
論文 参考訳(メタデータ) (Tue, 25 Jun 2024 17:48:56 GMT) - マルチリンガルな知識編集ベンチマークと、Multilingual In-context Knowledge Editing (MIKE) 手法の提案
- リポジトリはAnonymized Repository – Anonymous GitHub (4open.science)
投稿者: staka
PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation
- PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation [22.7]
大規模言語モデル(LLM)はNLPの分野に革命をもたらした。 本研究では,機械翻訳(MT)および要約データセット上で,オープンソースのLLMベースのメトリクスに対して,720以上のプロンプトテンプレートを評価する。
論文 参考訳(メタデータ) (Wed, 26 Jun 2024 17:56:29 GMT) - 機械翻訳と要約を対象とした大規模なプロンプトテンプレートの評価。複数のオープンなLLMで検証しており、LLM間の性能差も参考になる。コードが公開されたら細かく見てみたいところ。
- プロジェクトサイトはNLLG (nl2g.github.io)、リポジトリはGitHub – Gringham/PrExMe
A Survey on Privacy Attacks Against Digital Twin Systems in AI-Robotics
- A Survey on Privacy Attacks Against Digital Twin Systems in AI-Robotics [4.3]
産業 4.0 は、人工知能/機械学習(AI/ML)とデジタルツイン(DT)技術の統合によって、複雑なロボットが台頭するのを目撃している。 本稿では,AIモデルとDTモデルによって実現されたロボットを対象としたプライバシ攻撃について調査する。
論文 参考訳(メタデータ) (Thu, 27 Jun 2024 00:59:20 GMT) - デジタルツインに着目した攻撃に関するサーベイ
- 想定しているフレームワークは「Physical spaces comprise robotic sensors that collect data.Virtual space utilizes the data collected from physical space via a communication link between them.Predictions are generated by the AI models within vitual space, which are then analyzed before decisions are made by stakeholders.」
Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods
- Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods [13.1]
テキストが人工知能(AI)によって作成されたかどうかを知ることは、その信頼性を決定する上で重要である。 AIGT検出に対する最先端のアプローチには、透かし、統計学的およびスタイリスティック分析、機械学習分類などがある。 AIGTテキストがどのようなシナリオで「検出可能」であるかを判断するために、結合する健全な要因についての洞察を提供することを目指している。
論文 参考訳(メタデータ) (Fri, 21 Jun 2024 18:31:49 GMT) - テキスト生成されたものか否かを検出する手法に関するサーベイ、広範な内容。
- 必要性は認識しているが困難というタスクであり、現状を知るのにとても良い。
PINE : Position-INvariant inferencE
- Eliminating Position Bias of Language Models: A Mechanistic Approach [119.3]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。 因果的注意は一般的に、モデルが遠方のコンテンツを好むのに対して、RoPEのような相対的な位置エンコーディングは近くのものを好む。 本研究では,異なる入力セグメント順序(例えばLM-as-a-judgeのオプション,QAの検索文書)によって生じる位置バイアスを,TRAINING-FREE ZERO-SHOT方式で推定する。
論文 参考訳(メタデータ) (Mon, 01 Jul 2024 09:06:57 GMT) - 位置バイアスを除去する手法の提案。アテンションスコアの類似性を使って位置情報を割り当てなおすアプローチのよう(?)、トレーニングフリーだが計算コストは高めに思える。
- 位置バイアスは「Further, our empirical study on object detection reveals that position bias is also present in vision-language models (VLMs).」とMLLMでも影響ありとのこと。
- リポジトリはGitHub – wzq016/PINE: Offcial Repo of Paper “Eliminating Position Bias of Language Models: A Mechanistic Approach””
Fake News Detection: It’s All in the Data!
- Fake News Detection: It’s All in the Data! [0.1]
調査では、データセットの重要な特徴、採用されているさまざまなラベルシステム、モデルのパフォーマンスに影響を及ぼす偏見を慎重に概説している。 GitHubリポジトリは、公開可能なデータセットを単一のユーザフレンドリなポータルに統合する。
論文 参考訳(メタデータ) (Tue, 02 Jul 2024 10:12:06 GMT) - フェイクニュース検出のためのデータセット
- リポジトリはGitHub – fakenewsresearch/dataset
A Survey on Safe Multi-Modal Learning System
- A Survey on Safe Multi-Modal Learning System [10.9]
マルチモーダル学習システム(MMLS)は、様々なモーダル入力から情報を処理し統合する能力で注目を集めている。 安全に関する体系的な研究が欠如していることは、この分野の進歩にとって重要な障壁である。 MMLSの安全性を体系的に分類し評価する最初の分類法を提案する。
論文 参考訳(メタデータ) (Tue, 25 Jun 2024 05:42:43 GMT) - マルチモーダルなシステムに対する安全性のサーベイ
- この手の対策が必要になってきたことに進化を感じる
Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems
- Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems [124.8]
我々は、文書のHaystackを合成する手順を設計し、特定のテキストが文書間で繰り返されることを保証します。 すると、”Summary of a Haystack”(SummHay)タスクは、Haystackを処理し、クエリ、関連する洞察を特定し、ソースドキュメントを正確に引用する要約を生成するシステムを必要とする。
論文 参考訳(メタデータ) (Mon, 01 Jul 2024 15:23:42 GMT) - 長文・大量の文書を要約できるかに関する(合成データによる)SummHay ベンチマークを構築、様々なLLM及びRAGを比較した論文。「achieving strong coverage of key insights in a large corpus of text does not require retrieval, given a sufficiently capable long-context LLM.」、「for use-cases where citation quality is important, optimizing retrieval is paramount: it removes irrelevant documents from the summarizer’s context, narrowing and focusing options for citation.」とユースケースによってRAGの有効性が変わるよう。Gemini 1.5 ProはRAGなしでも相当有効に機能しているようなことも興味深い。Retrieveの戦略も複数比較されており参考になる。
- リポジトリはGitHub – salesforce/summary-of-a-haystack: Codebase accompanying the Summary of a Haystack paper.
CALM3-22B-Chat、InternLM-XComposer-2.5、YuLan
高い性能が話題となったCALM3 22B(論文などはまだ?)、GPT-4Vレベルを主張するInternLM2.5、中国語の性能が高い公開モデルYuLanなどオープンソースの取り組みも引き続き盛り上がっている。
- CALM3 22Bについてはこの記事を作成時点で公式ニュースリリースやテクニカルレポート、論文の発表などはなさそう
- InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output [138.2]
InternLM-XComposer-2.5 (IXC-2.5) は、長文入力と出力をサポートする汎用的な大規模言語モデルである。 IXC-2.5は様々なテキストイメージの理解と構成の応用に優れる。 IXC-2.5は28のベンチマークで評価され、16のベンチマークで既存のオープンソースの最先端モデルを上回っている。
論文 参考訳(メタデータ) (Wed, 3 Jul 2024 17:59:21 GMT) - リポジトリはGitHub – InternLM/InternLM-XComposer: InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output
- YuLan: An Open-source Large Language Model [179.6]
本稿では,12億ドルのパラメータを持つオープンソースの大規模言語モデル (LLM) であるYuLanの開発について述べる。 YuLanのベースモデルは、英語、中国語、多言語テキストを含む多種多様なコーパスから派生した約1.7ドルのトークンで事前訓練されている。 これらの段階にまたがってカリキュラム学習フレームワークを考案し,LLMが知識を習得し易い方法で学習することを支援する。
論文 参考訳(メタデータ) (Fri, 28 Jun 2024 11:52:53 GMT) - リポジトリはGitHub – RUC-GSAI/YuLan-Chat: YuLan: An Open-Source Large Language Model
Scaling Synthetic Data Creation with 1,000,000,000 Personas
- Scaling Synthetic Data Creation with 1,000,000,000 Personas [31.5]
私たちは、Webデータから自動的にキュレートされた10億の多様なペルソナのコレクションであるPersona Hubを紹介します。 この10億のペルソナ(世界の人口の13%)は、世界の知識の分散キャリアとして機能し、大きな言語モデルにカプセル化されたほぼ全ての視点に到達することができる。 ペルソナ駆動のデータ合成は、汎用的で、スケーラブルで、柔軟性があり、使いやすく、合成データ作成とアプリケーションの実践におけるパラダイムシフトを促進する可能性があることを実証する。
論文 参考訳(メタデータ) (Fri, 28 Jun 2024 17:59:01 GMT) - 多様なペルソナを用いた合成データ生成手法の提案。合成データを作るために多様なペルソナを使うというのは確かに有効そう。論文では「our approach allows a 7B LLM to achieve 65% on MATH, matching the performance of gpt-4-turbo-preview」と主張。
- リポジトリはGitHub – tencent-ailab/persona-hub