- SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images [10.2]
52k以上のスライド画像と14.5kのスライドデッキに関する質問からなる2.6k以上のスライドデッキを含む,新しいマルチイメージ文書VQAデータセットであるSlideVQAを提案する。 我々は、証拠選択と質問応答を統一的なシーケンス・ツー・シーケンス形式で扱う、新しいエンドツーエンド文書VQAモデルを開発した。
論文 参考訳(メタデータ) (Thu, 12 Jan 2023 09:00:42 GMT) - スライド画像をベースとしたVQAデータセット。NTTからの発表。
- リポジトリはGitHub – nttmdlab-nlp/SlideVQA: SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images (AAAI2023)
- 評価を目的した公開のようで、利用にあたってはSlideVQA/LICENSE at main · nttmdlab-nlp/SlideVQA · GitHubを十分に確認・理解する必要がある。
- 3.の「and provide written verification of such destruction to NTT.」は求められたらでよいのだろうか…?(なかなかダウンロードしづらい記載だと思うので、READMEにLICENSEの概要を明記してほしいところ)
投稿者: staka
Scaling Laws for Generative Mixed-Modal Language Models
- Scaling Laws for Generative Mixed-Modal Language Models [103.3]
個別のモダリティの貢献とそれら間の相互作用を統一する混合モードスケーリング法則について報告する。 具体的には、過去のユニモーダルスケーリング法則に対する加算項として、データとモデルサイズによる最適シナジーと競合を明示的にモデル化する。 また,訓練中に観察される4つの経験的現象,例えば,自然にモダリティを交互に交互に行う創発的コーディネート・アセット・スタイル・トレーニングを見出した。
論文 参考訳(メタデータ) (Tue, 10 Jan 2023 00:20:06 GMT)
On the Structural Generalization in Text-to-SQL
- On the Structural Generalization in Text-to-SQL [36.6]
データベーススキーマ(DS)の構造的多様性について検討する。 同じ入力問題に直面して、DSが別の構造となると、ターゲットSQLはおそらく異なる方法で表現される。 本稿では,テキストからsqlへのタスクの構造的一般化に関する深い議論を行う。実験では, 十分に訓練されたテキスト-SQLモデルの評価において, 構造一般化に関する現在の研究の限界が示される。 包括的分析によると、実際的な理由は(NL, SQL)パターンの過剰適合である。
論文 参考訳(メタデータ) (Thu, 12 Jan 2023 02:52:51 GMT) - 現在のText-to-SQLのデータセットがテンプレート化されすぎていて汎化性能を測るには適切ではなく、overfittingが生じているとの指摘。
Myths and Legends in High-Performance Computing
- Myths and Legends in High-Performance Computing [66.0]
このユーモラスで思想的な挑発的な記事では、高性能コンピューティングコミュニティのメンバーの間で伝承される神話や伝説について論じる。 それらは、デナードのスケーリングやムーアの法則など、多くのスケーリング法則の終焉によって引き起こされた、現在の大規模な変革の時代における退化論者を表していると我々は信じている。 いくつかの法則が終わる一方で、アルゴリズムスケーリングや新しいアーキテクチャ研究など、新しい方向性が開かれる。
論文 参考訳(メタデータ) (Fri, 6 Jan 2023 09:32:19 GMT) - ハイパフォーマンスコンピューティングの12の神話、面白い記事。
Data-centric AI: Perspectives and Challenges
- Data-centric AI: Perspectives and Challenges [51.7]
データ中心AI(DCAI)は、モデル進歩からデータ品質と信頼性の確保への根本的なシフトを提唱している。 データ開発、評価データ開発、データメンテナンスの3つの一般的なミッションをまとめる。 今後の探索を動機付けるためのオープンな課題をリストアップする。
論文 参考訳(メタデータ) (Thu, 12 Jan 2023 05:28:59 GMT) - Data-centric AIに関する解説。5ページと短いが、Training Data Development, Evaluation Data Development, Data Maintenaceに分けて概要と動向を解説している。
GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities
- GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities [0.0]
サンプルレギュレーション(REG)試験において,OpenAI のtext-davinci-003 と GPT の前バージョンを実験的に評価した。 サンプル試験では,text-davinci-003が14.4%の正解率を達成し,ゼロショットプロンプトの定量的推論において,人間の能力より著しく低いことが判明した。 最良のプロンプトとパラメータについて、モデルでは57.6%の質問が正しく答えられ、25%の推測率よりもかなり良い。
論文 参考訳(メタデータ) (Wed, 11 Jan 2023 11:30:42 GMT) - CPA試験を対象としたGPT-3(3.5)の検証。量的推論や算術のようにGPT-3が苦手としている部分はまだまだという結果だが、そうでない部分は性能が大幅に向上しているように見える。量的な部分は別モデルで改善が続いているわけで、色々と可能性を感じる結果
- リポジトリはGitHub – mjbommar/gpt-as-knowledge-worker: GPT as Knowledger Worker (or if you really want, GPT Sorta’ Takes the CPA Exam)
Active Learning for Abstractive Text Summarization
- Active Learning for Abstractive Text Summarization [50.8]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。 ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (Mon, 9 Jan 2023 10:33:14 GMT) - 抽象型要約へのActive Learning手法の提案と適用、ランダムサンプリングを上回る結果
- 期待はありつつも難しい分野なのでランダムサンプリングを安定的に上回ったのはすごいなと思う。
Single-Point Scene Text Spotting
- SPTS v2: Single-Point Scene Text Spotting [147.0]
トレーニングシーンのテキストスポッティングモデルは、非常に低コストの単一点アノテーションで実現できることを示す。 既存のベンチマークデータセットの実験では、SPTS v2が以前の最先端のシングルポイントテキストスポッターより優れていることが示されている。
論文 参考訳(メタデータ) (Wed, 4 Jan 2023 14:20:14 GMT) - 画像からのシーン理解(OCR)では通常バウンディングボックスを用いたアノテーションが行われるが、1点の情報(テキストスポッティング)で十分な性能が出せるとの指摘。アノテーションコストが劇的に下がる。
- リポジトリはGitHub – shannanyinxiang/SPTS: Official implementation of SPTS: Single-Point Text Spotting
Text2Poster
- Text2Poster: Laying out Stylized Texts on Retrieved Images [32.5]
ポスター生成は広範囲のアプリケーションにとって重要なタスクであり、しばしば時間がかかり、手作業による編集や芸術的な経験を必要とする。 我々は,テキスト情報から視覚効果のあるポスターを自動的に生成する,Text2Posterという新しいデータ駆動フレームワークを提案する。
論文 参考訳(メタデータ) (Fri, 6 Jan 2023 04:06:23 GMT) - テキストからのポスター生成、やっていることは図を見るのがわかりやすいが、入力されたテキストから画像を選びテキストスタイルやレイアウト情報を作ってポスター生成につなげている
- リポジトリはGitHub – chuhaojin/Text2Poster-ICASSP-22: The souce code of the ICASSP-2022 paper “Text2Poster: Laying Out Stylized Texts on Retrieved Images”
ClimaBench
- ClimaBench: A Benchmark Dataset For Climate Change Text Understanding in English [26.0]
気候変動(CC)は、現実世界の緊急性にもかかわらず、NLPにおいて限られた注目を集めている。 モデル性能を評価するために,既存の異種データセットのベンチマークコレクションであるClimate Change Benchmark(ClimaBench)を紹介する。 我々は,公開環境情報から収集した大規模ラベル付きテキスト分類と質問応答データセットを2種類リリースする。
論文 参考訳(メタデータ) (Wed, 11 Jan 2023 00:22:56 GMT) - 気候変動に関連するベンチマークでNLP向け
- リポジトリはGitHub – climabench/climabench