コンテンツへスキップ
- Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning [150.2]
数学的な推論を必要とする38,431のグレードレベルの問題を含む新しいデータセットであるTabular Math Word Problems (TabMWP)を提案する。 我々は,GPT-3モデルを含む,TabMWP上での事前学習モデルの評価を行った。 本稿では、ポリシー勾配を利用して、少量のトレーニングデータからコンテキスト内サンプルを選択する新しいアプローチ、PromptPGを提案する。
論文 参考訳(メタデータ) (Thu, 29 Sep 2022 08:01:04 GMT)- 表形式のデータに対して数学的な推論を必要とするデータセットの提案。38Kと規模も大きい。GPT-3+強化学習により一般的な手法よりも高い性能を達成とのこと。
- DRAMA: Joint Risk Localization and Captioning in Driving [23.1]
本稿では,運転場面における共同リスクローカライゼーションの新たな研究方向と,その自然言語記述としてのリスク説明を提案する。 標準ベンチマークの欠如により、我々は大規模データセットDRAMA (Driving Risk Assessment Mechanism with A Casting Module) を収集した。 我々のデータセットは、視覚的キャプションの目標を達成するために、関連する重要なオブジェクトによるリスクの駆動に関するビデオおよびオブジェクトレベルの質問に適合する。
論文 参考訳(メタデータ) (Thu, 22 Sep 2022 03:53:56 GMT)
- TempoWiC: An Evaluation Benchmark for Detecting Meaning Shift in Social Media [17.8]
我々は、ソーシャルメディアベースの意味変化の研究を加速するための新しいベンチマークであるTempoWiCを紹介する。 この結果から,ソーシャルメディアに特化した最近リリースされた言語モデルであっても,TempoWiCは難しいベンチマークであることがわかった。
論文 参考訳(メタデータ) (Fri, 16 Sep 2022 16:54:46 GMT)
- Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering [124.2]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。 また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。 我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (Tue, 20 Sep 2022 07:04:24 GMT)- 21kからなるマルチモーダル、マルチホップを含むQAデータセット。注釈等も付与されている。GPT-3 & chain-of-thought (CoT)で正解率75.17%とのこと。
- プロジェクトサイトはScienceQA
- HAPI: A Large-scale Longitudinal Dataset of Commercial ML API Predictions [35.5]
商用ML APIアプリケーションの1,761,417インスタンスの時系列データセットであるHAPIを提示する。 各インスタンスは、APIに対するクエリ入力と、APIの出力予測/アノテーションと信頼性スコアで構成されている。
論文 参考訳(メタデータ) (Sun, 18 Sep 2022 01:52:16 GMT)- 様々な商用APIの予測結果をまとめたデータセット。2020年~2022年にGoogle、Microsoft、AmazonなどのML APIによってアノテートされた1,761,417件のデータが含まれるとのこと。
- API更新によって間違いが修正される一方で新たなエラーをもたらすことがある、など各社の苦労が透けて見えるデータ…
- WildQA: In-the-Wild Video Question Answering [22.1]
本研究では,外部設定で録画された映像の映像理解データセットWILDQAを提案する。 また、与えられた質問や回答に対する視覚的支援を識別する新しいタスクについても紹介する。
論文 参考訳(メタデータ) (Wed, 14 Sep 2022 13:54:07 GMT)
- SPACE-3: Unified Dialog Model Pre-training for Task-Oriented Dialog Understanding and Generation [123.4]
SPACE-3は、大規模対話コーパスから学習する、新しい半教師付き会話モデルである。 幅広いダウンストリームダイアログタスクを効果的に微調整できる。 その結果、SPACE-3は8つの下流ダイアログベンチマークで最先端のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (Wed, 14 Sep 2022 14:17:57 GMT)
- FDB: Fraud Dataset Benchmark [17.5]
フラッドデータセットベンチマーク(Fraud dataset benchmark、FDB)は、不正検出に特化した公開データセットの集大成である。 FDBは、不正なカード非表示トランザクションの識別、ボット攻撃の検出、悪意のあるURLの分類、コンテンツモデレーションへのローンのリスクの予測など、さまざまな不正関連タスクで構成されている。 FDBのPythonベースのライブラリは、標準化されたトレーニングとテストの分割を伴うデータローディングのための一貫性のあるAPIを提供する。
論文 参考訳(メタデータ) (Wed, 31 Aug 2022 22:20:42 GMT)
- Bugs in the Data: How ImageNet Misrepresents Biodiversity [99.0]
ImageNet-1k検証セットで野生動物を表す269のクラスから13450の画像を解析した。 多くのクラスが未定義あるいは重複しており、画像の12%が誤ってラベル付けされていることがわかった。 また,ImageNet-1kに含まれる野生生物関連ラベルと画像の両方が,地理的,文化的に有意な偏見を呈していることがわかった。
論文 参考訳(メタデータ) (Wed, 24 Aug 2022 17:55:48 GMT)- 非常に良く用いられているImageNet-1kに問題のあるクラス付けがあるという指摘。12%はモデル品質に影響を与えるレベルに思う。このような検証はとても大事。
- Mining Legal Arguments in Court Decisions [43.1]
我々は,欧州人権裁判所の手続において,法的議論のための新たな注釈体系を開発する。 まず,欧州人権裁判所(ECHR)の手続における法的議論のための新たな注釈体系を設計し,法的議論研究の理論と実践に深く根ざしている。 第二に、373の判決(トークン2.3Mと15kの注釈付き引数)の大きなコーパスをコンパイルし、注釈付けします。 最後に、法的なnlpドメインにおける最先端モデルを上回る議論マイニングモデルを訓練し、専門家による徹底的な評価を提供する。
論文 参考訳(メタデータ) (Fri, 12 Aug 2022 08:59:55 GMT)