コンテンツへスキップ
- A Survey on Natural Language Processing for Programming [42.9]
全スペクトルから関連する著作を体系的にレビューする文献は存在しない。 本論文は, 初期の演能モデルから最新の競争レベルモデルまで, 既存の研究を包括的に調査する。 この論文のもう1つの利点はテクニックカテゴリの完全性であり、将来の作品の配置と比較を簡単に行うことができる。
論文 参考訳(メタデータ) (Mon, 12 Dec 2022 08:51:30 GMT)
- 自然言語処理をプログラミングに応用する取り組みのサーベイ
- 最近は生成がよくニュースになるが、それ以外にも様々なタスクがあることが分かる
- Benchmark Dataset and Effective Inter-Frame Alignment for Real-World Video Super-Resolution [65.2]
ビデオ超解像(VSR)は、高解像度(HR)動画を低解像度(LR)ビデオから再構成することを目的としており、近年大きく進歩している。 既存のVSRメソッドを複雑な劣化を伴う実世界のデータにデプロイすることは依然として困難である。 EAVSRは、提案した多層適応空間変換ネットワーク(MultiAdaSTN)を用いて、事前学習した光フロー推定ネットワークが提供するオフセットを洗練する。
論文 参考訳(メタデータ) (Sat, 10 Dec 2022 17:41:46 GMT)
- 実世界のビデオ超解像用データセット構築及びSoTAの提案。
- リポジトリはhttps://github.com/HITRainer/EAVSR
- LawngNLI: A Long-Premise Benchmark for In-Domain Generalization from Short to Long Contexts and for Implication-Based Retrieval [72.5]
LawngNLIは米国法的な見解から構築されており、高い精度で自動ラベルが付けられている。 短いコンテキストから長いコンテキストまでドメイン内の一般化のベンチマークを行うことができる。 LawngNLIは、含意に基づくケース検索と議論のためのシステムを訓練し、テストすることができる。
論文 参考訳(メタデータ) (Tue, 6 Dec 2022 18:42:39 GMT)
- 法律ドメインのNatural Language Inferenceデータセット、前提が非常に長いのが特徴とのことで扱うのは簡単ではない印象
- コードなどはCognitive Computation Group (upenn.edu)でリリースされる予定とのこと
- Explanations Can Reduce Overreliance on AI Systems During Decision-Making [12.7]
AIが予測のための説明を生成する場合、予測のみを提供する場合に比べて、過信は減少しない。 過度信頼は認知バイアスや未確認の信頼の結果であり、過度信頼は人間の認知の必然性に起因すると主張する者もいる。 対照的に、私たちの論文では、AIの説明に関わるかどうかを戦略的に選択し、AIの説明が過度な信頼を減少させるシナリオがあることを実証的に示す。文献で見いだされた無効効果のいくつかは、AIの予測を検証するコストを十分に削減していない説明によるものである可能性が示唆された。
論文 参考訳(メタデータ) (Tue, 13 Dec 2022 18:59:31 GMT)
- XAIの有効性に関する報告。「AIを過剰に信頼する文脈でXAIは効果が無い」という既存の報告に対して、5つの実験によって状況に依存するとの結果を出している。
- 実験のデザインをする過程が詳細で興味深い(この理由により若干長い)
- この報告自体は単純化された内容ではあるが、社会実装においてAIの使い方を設計するというのが重要になりそうなことが分かる。
- ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for Programming Languages [37.6]
同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆も話す。 近年の研究では、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、それらは常に英語中心である。 ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。
論文 参考訳(メタデータ) (Tue, 13 Dec 2022 17:21:44 GMT)
- マルチリンガルなcode-to-text, text-to-code, code-to-code, text-to-text
- translate-trainとzero-shotの比較も興味深い。
- Multimodal Tree Decoder for Table of Contents Extraction in Document Images [32.5]
テーブル・オブ・コンテント(ToC)抽出は、文書の様々なレベルの見出しを抽出し、内容のアウトラインをよりよく理解することを目的としている。 まず,学術論文の650件の資料とコンテンツラベルによるイメージサンプルを含む,標準データセットであるHierDocを紹介した。 本稿では,ToCのマルチモーダルツリーデコーダ(MTD)をHierDocのベンチマークとして用いた新しいエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (Tue, 6 Dec 2022 11:38:31 GMT)
- Table of Contentsの自動生成モデルの開発。ベンチマーク用のデータセット作成も行っており、かつ、マルチモーダル。画像からの情報が多いというのは直感に反していない。
- リポジトリはとのことだが、https://github.com/Pengfei-Hu/MTDまだ404
- X-Paste: Revisit Copy-Paste at Scale with CLIP and StableDiffusion [137.8]
Copy-Pasteは、インスタンスセグメンテーションのためのシンプルで効果的なデータ拡張戦略である。 新たに登場したゼロショット認識モデルのパワーで、Copy-Pasteを大規模に再考する。 我々は、text2imageモデルを用いて画像を生成するか、あるいはゼロショット認識モデルを用いてノイズの多いクローリング画像をフィルタリングすることが、Copy-Pasteを真にスケーラブルにする方法であることを示す。
論文 参考訳(メタデータ) (Wed, 7 Dec 2022 18:59:59 GMT)
- ゼロショットな画像認識(CLIPなど)+テキストでの画像生成モデル(Stable Diffusion)+Copy-Paste data augmentationでセグメンテーション性能が上がるという報告
- RT-1: Robotics Transformer for Real-World Control at Scale [98.1]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。 実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (Tue, 13 Dec 2022 18:55:15 GMT)
- 大規模なデータを収集、Transformerで構築したモデルの提案。Transfomerの優秀性がよくわかる。
- 13台のロボット、17か月間で700タスク13万エピソードとさすがの規模。700以上の命令に対して97%の成功率、新たなタスクについても効果有とのこと。
- 大規模とはいえやってやれないことはない企業はありそうだが、Transformerでやりきるという選択はすごいなーと思う。
- RT-1: Robotics Transformer (robotics-transformer.github.io)