- Source Code Summarization with Structural Relative Position Guided Transformer [19.8]
ソースコードの要約は、プログラミング言語の簡潔で明確な自然言語記述を生成することを目的としている。 近年の取り組みは、Transformerなどのニューラルネットワークにコードの構文構造を組み込むことに重点を置いている。 SCRIPTと呼ばれる構造相対位置案内変換器を提案する。
論文 参考訳(メタデータ) (Mon, 14 Feb 2022 07:34:33 GMT)- ソースコードの要約(ソースコードに対して短い自然言語の記述を生成)にTransformer型の構造を適用、優れた性能を達成。
- (略称は無理やり感があるが)有用な研究、様々なアプローチがあり興味深い。
- リポジトリはGitHub – GoneZ5/SCRIPT
- ソースコードの要約(ソースコードに対して短い自然言語の記述を生成)にTransformer型の構造を適用、優れた性能を達成。
タグ: Transformer
WebFormer: WEBページからの情報抽出
- WebFormer: The Web-page Transformer for Structure Information Extraction [44.5]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。 シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。 本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (Tue, 1 Feb 2022 04:44:02 GMT)- Webページの構造解析にTransformerベースの新たなモデルを提案、SWDEとCommon CrawlベンチマークでSoTAとのこと。単純なテキストベースの手法ではなく、エンコーダー部分にHTML-to-HTML(H2H)、HTML-to-Text(H2T)、Text-to-HTML(T2H)、Text-to-Text(T2T)など様々なアテンションを備えているのが特徴とのこと。
VRT(Video Restoration Transformer)
- VRT: A Video Restoration Transformer [126.8]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。 並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (Fri, 28 Jan 2022 17:54:43 GMT)- ビデオの超解像技術にTrasnsformerを用いる研究。super-resolution、 deblurring、denoisingで優れた性能を達成とのこと。
- プロジェクトサイトはGitHub – JingyunLiang/VRT: VRT: A Video Restoration Transformer
Video Transformerのサーベイ
- Video Transformers: A Survey [42.3]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。 具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。 また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文 参考訳(メタデータ) (Sun, 16 Jan 2022 07:31:55 GMT)- 動画処理にもTransformerが使われていることがよくわかるサーベイ
Data2vec: speech、vision、textで動作する自己教師有り学習
2vecの最終系かと思うData2vecが出ていた。Transformerをベースにタスク特有のエンコーディングを実施、objectiveは共通化されている状況でViT-B、wav2vec2/HuBERT、RoBERTaと競争的な性能とのこと。
論文はData2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language (facebook.com)、リポジトリはfairseq/examples/data2vec at main · pytorch/fairseq · GitHub
Omnivore: 多くのモダリティで効果的なモデル
- Omnivore: A Single Model for Many Visual Modalities [47.9]
以前の研究は、異なる視覚的モダリティを分離して研究し、画像、ビデオ、および3Dデータの認識のためのアーキテクチャを別々に開発してきた。 同一のモデルパラメータを用いて,画像,ビデオ,シングルビューの3Dデータの分類に優れる単一モデルを提案する。
論文 参考訳(メタデータ) (Thu, 20 Jan 2022 18:58:03 GMT)- 画像関連のデータ(普通の画像、動画、シングルビューの3D)について共通的に動作可能な(複数のモダリティに対応可能な)モデルの提案。リポジトリを見ると複数のタスクでSoTAを達成している。各モダリティ専用の構造でないにもかかわらず優れた性能を出せるのは驚き。
LSeg: 言語駆動型のセマンティックセグメンテーション
- Language-driven Semantic Segmentation [88.2]
本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。 テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。 エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
論文 参考訳(メタデータ) (Mon, 10 Jan 2022 18:59:10 GMT)- BackboneとなるVisionのモデル(ViT or ResNet)にCLIPを組み合わせることでゼロショットでの(ラベルを任意に設定可能な)セマンティックセグメンテーションを実現。マルチモーダルな処理に可能性と未来を感じる。
- リポジトリはGitHub – isl-org/lang-seg: Language-Driven Semantic Segmentation
DeepLearingによる数学の問題生成と解決
- A Neural Network Solves and Generates Mathematics Problems by Program Synthesis: Calculus, Differential Equations, Linear Algebra, and More [8.4]
質問をプログラミングタスクに変換し、プログラムを自動的に生成し、実行します。 これは、大学レベルの数学コースの質問を自動的に解き、評価し、生成する最初の作品である。
論文 参考訳(メタデータ) (Fri, 31 Dec 2021 18:57:31 GMT)- (深層学習で解くのは難しいとされていた)数学の問題が事前学習済みモデル(Transformer)+プログラミングタスクとしてのfine tuningで解けるとの報告。
KAT(Knowledge Augmented Transformer): 画像/言語用の外部知識活用
- KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.7]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。 提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。 我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (Thu, 16 Dec 2021 04:37:10 GMT)- Explicit knowledgeをWikipediaなどのリソースから、Implicit knowledgeをGPT-3から取り出して統合、質問に回答する手法の提案。OK-VQA (allenai.org)で既存のSoTAを大幅に更新とのこと。
- アプローチは論文4ページの図が分かりやすく(それでも複雑だが)、既存モジュールを組み合わせてパイプラインを組んでいる。
UniLog: ログ解析タスクを扱う統一モデル
- UniLog: Deploy One Model and Specialize it for All Log Analysis Tasks [11.4]
本研究では,マルチタスク学習手法としてログ解析を定式化し,様々なログ分析タスクを実行できる単一モデルを訓練することを提案する。この統合ログ分析手法をUniLogと呼ぶ。4つのログ分析タスクに関する7つのデータセットにわたる大規模な実験は、UniLogが顕著なパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 6 Dec 2021 16:49:33 GMT)- ログ分析タスク(anomaly detection, failure prediction, log compression, log summarization)を統一的に扱える手法を提案、7つのデータセットでSoTAまたはそれに近い結果を達成とのこと。