コンテンツへスキップ
- Human Motion Diffusion Model [35.1]
運動拡散モデル(英: Motion Diffusion Model、MDM)は、人間の動作領域に対する変換器に基づく生成モデルである。 我々は,本モデルが軽量な資源で訓練されていることを示すとともに,テキスト・トゥ・モーションとアクション・トゥ・モーションのベンチマークにおいて,最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (Mon, 3 Oct 2022 09:17:41 GMT)
- Knowledge Unlearning for Mitigating Privacy Risks in Language Models [31.3]
言語モデルのプライバシーリスクを低減する代替手法として知識アンラーニングを提案する。 トークンシーケンスのターゲットに異種トレーニングの目的を単純に適用することは、それを忘れるのに効果的であることを示す。 抽出攻撃に脆弱なデータが先入観として知られているシナリオでは、アンラーニングがより強力な経験的プライバシ保証を与える可能性があることを示す。
論文 参考訳(メタデータ) (Tue, 4 Oct 2022 10:18:11 GMT)
- Language Models are Multilingual Chain-of-Thought Reasoners [83.4]
本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。 MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。 言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。
論文 参考訳(メタデータ) (Thu, 6 Oct 2022 17:03:34 GMT)- GSM8Kデータセットから,250の問題を手動で翻訳して Multilingual Grade School Math (MGSM)ベンチマークを作成し多言語における大規模言語モデルの性能評価
- EN-COT > Native-COTである点は興味深い(そして翻訳を介するのがもっとの性能が高いのも…)
- リポジトリはgoogle-research/url-nlp (github.com)
- Backdoor Attacks in the Supply Chain of Masked Image Modeling [26.9]
Masked Image Modeling (MIM)は、イメージ事前トレーニングのための自己教師付き学習(SSL)に革命をもたらす。 本稿では,バックドア攻撃のレンズを用いてMIMの最初のセキュリティリスク定量化を行う。 評価の結果、MIMで構築したモデルは、リリースおよびダウンストリームフェーズにおける既存のバックドアアタックに対して脆弱であることがわかった。
論文 参考訳(メタデータ) (Tue, 4 Oct 2022 14:27:42 GMT)- MIM(Masked Image Modeling)を用いたモデルに対し、構築過程ごとにリスク分析を行った論文。驚きの結果というわけではないが、攻撃方法(前提)の整理がとても参考になる。
- Ask Me Anything: A simple strategy for prompting language models [24.3]
大規模言語モデル(LLM)は、単にタスクの実行方法を示す自然言語プロンプトを与えられただけで、追加のトレーニングは行われない。本研究では,質問応答(QA)のプロンプトが,モデル出力を制限するプロンプトよりも優れていることを示す。 収集したプロンプトを適用して、入力の真のラベルに対していくつかのノイズの多い投票を行う。 プロンプトは、非常に異なる精度と複雑な依存関係を持つことができる。
論文 参考訳(メタデータ) (Thu, 6 Oct 2022 06:39:56 GMT)
- MEDFAIR: Benchmarking Fairness for Medical Imaging [44.7]
MEDFAIRは、医療画像のための機械学習モデルの公正性をベンチマークするフレームワークである。 モデル選択基準の未検討の問題は、公正な結果に重大な影響を及ぼす可能性がある。 異なる倫理的原則を必要とするさまざまな医療応用シナリオを推奨する。
論文 参考訳(メタデータ) (Tue, 4 Oct 2022 16:30:47 GMT)
- MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text [58.7]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。 以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (Thu, 6 Oct 2022 13:58:03 GMT)- マルチモーダルなRAG、モダリティを追加することで性能も相応に向上している。
- GLM-130B: An Open Bilingual Pre-trained Model [40.6]
我々は,130億のパラメータを持つバイリンガル(英語と中国語)事前学習言語モデルであるGLM-130Bを紹介する。 100Bスケールのモデルを少なくともGPT-3と同程度にオープンソース化する試みである。 本稿では, GLM-130Bの設計選択, 効率と安定性の両面でのトレーニング戦略, エンジニアリングの取り組みを含む, GLM-130B のトレーニングプロセスを紹介する。
論文 参考訳(メタデータ) (Wed, 5 Oct 2022 17:34:44 GMT)
- XDoc: Unified Pre-training for Cross-Format Document Understanding [84.6]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。 XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (Thu, 6 Oct 2022 12:07:18 GMT)
- Requirements Engineering for Machine Learning: A Review and Reflection [39.0]
本稿では,機械学習アプリケーションにおける要件工学プロセスの概要について述べる。 産業データ駆動インテリジェンスアプリケーションの例も、前述のステップに関連して議論されている。
論文 参考訳(メタデータ) (Mon, 3 Oct 2022 12:24:39 GMT)- 機械学習アプリケーションにおける要求をレビューした論文。CRISP-DM と CRISP-ML(Q)の差のようにデータ分析とは異なる点が面白い。
- 「Fig 1: General collaborations of Stakeholders involved in ML Application Development」は役割分担(興味)を整理するうえでも面白い。