コンテンツへスキップ
- Document Structure in Long Document Transformers [64.8]
長い文書は、しばしばセクションヘッダーや段落のような異なる機能で階層的に整理された要素を持つ構造を示す。 文書構造の不明瞭さにもかかわらず、自然言語処理(NLP)におけるその役割はいまだに不透明である。 長期文書変換モデルは事前学習中に文書構造の内部表現を取得するか? 事前トレーニング後に構造情報をモデルに伝達するにはどうすればよいのか、下流のパフォーマンスにどのように影響するのか?
論文 参考訳(メタデータ) (Wed, 31 Jan 2024 08:28:06 GMT)
- 文書構造がモデルで扱われるか及び構造をモデルに入れ込む手法提案。「Results on LED and LongT5 suggest that they acquire implicit understanding of document structure during pretraining, which can be further enhanced by structure infusion, leading to improved endtask performance.」と肯定的な見解
- リポジトリはhttps://github.com/UKPLab/eacl2024-doc-structureとのこと(現在は404)
- BitNet: Scaling 1-bit Transformers for Large Language Models [119.2]
大規模言語モデル用に設計されたスケーラブルで安定した1ビットトランスフォーマーアーキテクチャであるBitNetを紹介する。 言語モデリングの実験結果から,BitNetはメモリフットプリントとエネルギー消費を大幅に削減しつつ,競争性能を向上することが示された。
論文 参考訳(メタデータ) (Tue, 17 Oct 2023 17:59:15 GMT)
- LLMのための 1-bit Transformer architectureの提案。30Bとかなり大規模な設定で比較検証が行われており有効そうに見える。quantizationと比べて優勢があるとのこと。
- プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)
- A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks [60.4]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。 Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。 我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (Sun, 11 Jun 2023 23:13:51 GMT)
- Transformerの適用に関する総合的なサーベイ、分野としてNatural Language Processing, Computer Vision, Multi-Modal, Audio/Speech, Signal Processingを挙げ、様々な手法を紹介している。
- 時系列での手法進化を振り返るのに良いサーベイ
- A Survey on Efficient Training of Transformers [72.3]
この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供する。 トレーニング中の中間テンソルの計算コストとメモリコストを削減できる手法と,ハードウェア/アルゴリズムの共同設計手法を分析し比較する。
論文 参考訳(メタデータ) (Thu, 4 May 2023 01:23:12 GMT)
- Transformerの効率的な学習に関するサーベイ、ver3
- CoLT5: Faster Long-Range Transformers with Conditional Computation [48.5]
我々は、CoLT5がLongT5よりもはるかに高速なトレーニングと推論でパフォーマンスを実現していることを示す。 CoLT5は、非常に長い入力を効果的に、かつ、トラクタブルに利用でき、64kまでの入力長が強い。
論文 参考訳(メタデータ) (Fri, 17 Mar 2023 03:28:17 GMT)
- 最大64kトークンに対応できる手法の提案、SCROLLSベンチマークでSOTA
- EVA-02: A Visual Representation for Neon Genesis [49.9]
EVA-02はトランスフォーマーをベースとした次世代の視覚表現で、頑丈で堅牢な言語対応の視覚機能を再構築するために事前訓練されている。 モデルサイズは6Mから304Mのパラメータで、4種類のEVA-02が提供されています。
論文 参考訳(メタデータ) (Wed, 22 Mar 2023 14:10:37 GMT)
- 非常に規模が大きいわけでもないが強力なVision Transformersの提案。オープンライセンスのモデルが公開されている。
- リポジトリはEVA/EVA-02 at master · baaivision/EVA · GitHub
- Transformer models: an introduction and catalog [1.4]
本論文の目的は,最もポピュラーなTransformerモデルのカタログと分類を提供することである。 論文には、Transformerモデルにおける最も重要な側面とイノベーションの紹介も含まれている。
論文 参考訳(メタデータ) (Thu, 16 Feb 2023 05:31:15 GMT)
- Transformerのカタログ
- モデルカード的な情報がありがたいのと、 Date (of first known publication)があるのが非常に助かる