PromptIDE: プロンプト作成用のIDE

  • Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation with Large Language Models [116.3]
    最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。 PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
    論文  参考訳(メタデータ)   (Tue, 16 Aug 2022 17:17:53 GMT)
    • ついに出た(?) 自然言語処理で主流になりつつあるprompt用のIDE。著者にHugging Faceに所属している方がいるのも時代を感じる。
    • プロジェクトサイトはInteractive PromptIDE (vizhub.ai)

LAM Dataset

  • The LAM Dataset: A Novel Benchmark for Line-Level Handwritten Text Recognition [40.2]
    手書き文字認識(HTR)は、コンピュータビジョンと自然言語処理の交差点におけるオープンな問題である。  歴史的写本を扱う際の主な課題は、紙の支持の保存、筆跡の多様性、また、同じ著者の幅広い期間にわたる変動、そして古代の表現が不十分な言語からのデータ不足などである。 本稿では,本研究の推進を目的として,60年以上にわたって1人の著者によって編集されたイタリア古写本の行単位のhtrデータセットである ludovico antonio muratori (lam) データセットを提案する。
    論文  参考訳(メタデータ)   (Tue, 16 Aug 2022 11:44:16 GMT)
    • (人間でも読解困難と思われる)歴史的写本の文字認識データセット。
    • プロジェクトサイトはAImageLab – – (unimore.it)

マルチモーダルなプレゼンテーションデータセット

  • Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides [57.9]
    学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。 このデータセットには,180時間以上のビデオと9000以上のスライドが,各科目から10人の講師が参加している。 マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
    論文  参考訳(メタデータ)   (Wed, 17 Aug 2022 05:30:18 GMT)
    • 330本・180時間以上の動画、9000以上のスライドからなるデータセット。ライセンスはCC BY-SA-NC。text-to-figure(音声の説明から図を検索)、figure-to-text(図から音声の説明を検索)の検索タスクを前提として設計されているとのこと。既存手法、提案手法とも人間のパフォーマンスとのギャップが大きい。
    • リポジトリはdondongwon/MLPDataset (github.com)