FactGraph: 要約における事実性の評価

  • FactGraph: Evaluating Factuality in Summarization with Semantic Graph Representations [114.9]
    文書と要約を構造化された意味表現(MR)に分解するFactGraphを提案する。 MRは、コアセマンティックの概念とその関係を記述し、文書と要約の両方の主要な内容を標準形式で集約し、データの疎結合を減少させる。 事実性を評価するための異なるベンチマークの実験では、FactGraphは以前のアプローチよりも最大15%優れていた。
    論文  参考訳(メタデータ)   (Wed, 13 Apr 2022 16:45:33 GMT)
    • 文書と要約で意味的整合性が取れないことがあるが、その評価を行う研究。グラフベースのアプローチを用いることでQAベースの手法よりも優れた結果であったとのこと。
    • コードはhttps://github.com/amazon-research/fact-graphで公開予定

GPT-NeoX-20B: オープンソースの巨大言語モデル

WikiDiverse: マルチモーダルなエンティティ・リンキングデータセット

  • WikiDiverse: A Multimodal Entity Linking Dataset with Diversified Contextual Topics and Entity Types [25.6]
    MEL(Multimodal Entity Linking)は、知識ベース(例えばWikipedia)からの参照エンティティへの参照をマルチモーダルコンテキストにリンクすることを目的としている。 WikiDiverseは、Wikinewsのコンテキストトピックやエンティティタイプを多用した、高品質な人間アノテーション付きMELデータセットである。 WikiDiverseに基づいて、モダリティ内およびモダリティ間注目を伴うよく設計されたMELモデルのシーケンスを実装した。
    論文  参考訳(メタデータ)   (Wed, 13 Apr 2022 12:52:40 GMT)
    • 画像を併用したエンティティリンキングのデータセット。人の手が入っておりクオリティが高いとのこと。ベースラインモデルでもマルチモーダルなデータ活用は有効そう。データ数は8Kキャプション、 ライセンスはCC BY-SA 4.0。 
    • リポジトリはGitHub – wangxw5/wikiDiverse

NumGLUE: 数学的推論のデータセット

  • NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks [37.7]
    8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。 このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。 我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
    論文  参考訳(メタデータ)   (Tue, 12 Apr 2022 09:36:10 GMT)
    • 以下8タスクからなる数学的推論タスクのデータセット。ベースラインも用意されているがかなり困難なタスクに見える。
      • TASK 1 Commonsense + Arithmetic
      • TASK 2 Domain specific + Arithmetic
      • TASK 3 Commonsense + Quantitative
      • TASK 4 Fill-in-the-blanks
      • TASK 5 RC + Explicit Numerical Reasoning
      • TASK 6 RC + Implicit Numerical Reasoning
      • TASK 7 Quantitative NLI
      • TASK 8 Arithmetic word problems
  • プロジェクトサイトはNumGLUE Dataset — Allen Institute for AI (allenai.org)

引用と再現性の関係

  • Does the Market of Citations Reward Reproducible Work? [36.8]
    医学や機械学習(ML)などの特定の研究分野は、再現性のある作品とより多くの引用を関連付けていることを示す。 コードを利用可能にし、事前作業を徹底的に参照することは、引用の増加と肯定的に相関しているように見える。
    論文  参考訳(メタデータ)   (Fri, 8 Apr 2022 04:03:17 GMT)
    • 引用と再現性に関する研究。「再現不可能な論文がより多くの引用を得る」ようなことはなく引用と再現性は正の相関または独立。機械学習分野では徹底的な引用、コードの共有といった望ましい行動(desirable behaviors)と正の相関があるとのこと。
    • 分析コード等はGitHub – EdwardRaff/ReproducibleCitationsで公開されている。

Dynatask: ベンチマーク作成用フレームワーク

Web Phishing Detection回避とその対策

  • Towards Web Phishing Detection Limitations and Mitigation [21.7]
    フィッシングサイトが機械学習に基づく検出をバイパスする方法を示す。 100Kフィッシング・ベナンサイトを用いた実験では、有望な精度(98.8%)を示した。 本稿では,ロジスティック回帰に基づくよりレジリエントなモデルであるAnti-SubtlePhishを提案する。
    論文  参考訳(メタデータ)   (Sun, 3 Apr 2022 04:26:04 GMT)
    • フィッシングサイトがMLベースの検出をバイパスしている方法の調査とその対策の提案。13,000のフィッシングページにわたる詳細なケーススタディを行っているとのことで面白い内容。
    • 提案されているAnti-SubtlePhishは主として特徴量の強化を行っている。最終的なレンダリング結果を使うことが重要そう。

ロボットへの自然言語によるフィードバック

  • Correcting Robot Plans with Natural Language Feedback [88.9]
     既存の補正方法(例えばジョイスティックの使用やエンドエフェクターの直接操作など)は完全な遠隔操作やリアルタイム操作を必要とする。 本稿では,ロボット訂正のための表現的かつ柔軟なツールとして自然言語を探索する。これらの変換により、ユーザは目標を正し、ロボットの動きを更新し、計画上のエラーから回復できる。 本手法により,シミュレーション環境や実環境において,複数の制約を合成し,未知のシーン,オブジェクト,文に一般化することが可能となる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 11 Apr 2022 15:22:43 GMT)
    • 自然言語でロボットにフィードバックするという未来を感じる研究。

CoCoSoDa: Code search with multimodal Contrastive learning and Soft Data augmentation

  • Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.1]
    コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。 我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
    論文  参考訳(メタデータ)   (Fri, 8 Apr 2022 03:03:48 GMT)
    • コードスニペットの検索タスクにおいて優れた性能を達成、とのことだがマルチモーダルの意味は自然言語とソースコードということなのだろうか。。

マルチリンガルな検索におけるベストプラクティスに向けて

  • Towards Best Practices for Training Multilingual Dense Retrieval Models [54.9]
    我々は,このような設計を用いて,多種多様言語における単言語検索の課題に焦点をあてる。 本研究は多言語高密度検索モデルのトレーニングのための「ベストプラクティス」ガイドとして組織されている。
    論文  参考訳(メタデータ)   (Tue, 5 Apr 2022 17:12:53 GMT)
    • (1) マルチリンガルな事前学習モデルはあるがデータはない、(2) マルチリンガルな事前学習モデルとデータの両方がある(データの言語でいくつかのバリエーションが存在)、(3) データはあるが事前学習モデルがない、のパターンでどのような対応がありえるかまとめた論文。
    • 結果は参考にはなるのだが、機械翻訳を挟むアプローチが検討されていないのはなぜなんだろう・・・?