A Survey of Computer Vision Technologies In Urban and Controlled-environment Agriculture 

  • A Survey of Computer Vision Technologies In Urban and Controlled-environment Agriculture [10.0]
    制御環境農業(CEA)は多くの経済的、環境的、社会的利益を提供している。 CEAは、植物状態のリアルタイムモニタリングの採用において、コンピュータビジョン(CV)とうまく結合する。 本論文は,CV研究者に農業応用と農業従事者に,CVが提供するソリューションを親しんだものである。
    論文  参考訳(メタデータ)   (Thu, 20 Oct 2022 14:51:01 GMT)
  • Controlled-environment Agricultureにおけるコンピュータービジョン利用(CV4CEA)のサーベイ。

LAION-5B

  • LAION-5B: An open large-scale dataset for training next generation image-text models [16.1]
    我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。 このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。 また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
    論文  参考訳(メタデータ)   (Sun, 16 Oct 2022 00:08:18 GMT)

TabLLM

  • TabLLM: Few-shot Classification of Tabular Data with Large Language Models [66.0]
    大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。 テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。 このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
    論文  参考訳(メタデータ)   (Wed, 19 Oct 2022 17:08:13 GMT)
    • 大規模言語モデルを用いたテーブルデータ処理。(現実的に使えるかは置いておいて)few-shot設定では優れた性能。言語モデルで取り扱えるようにする過程で情報が与えられているようにも思うが、これはこれで新たなモデル構築のように見えなくもない。

Summary Workbench

  • Summary Workbench: Unifying Application and Evaluation of Text Summarization Models [24.4]
    テキスト要約モデルの開発と評価ツールであるサマリワークベンチを提案する。新しいモデルと評価基準は、Dockerベースのプラグインとして簡単に統合できる。 複数の測度を組み合わせた視覚分析は、モデルの強みと弱みに関する洞察を与える。
    論文  参考訳(メタデータ)   (Tue, 18 Oct 2022 04:47:25 GMT)
    • 様々な要約手法を試せるサイト。原文との対応や複数手法での比較など評価部分も凝っている。
    • プロジェクトサイトはSummary Workbench (webis.de)

BIG-Bench Hard

  • Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them [108.5]
    我々は,BIG-Bench Hard (BBH) と呼ばれる,BIG-Benchタスクに挑戦する23のスイートに焦点を当てる。 BBHタスクへのチェーン・オブ・ソウト(CoT)の適用により、PaLMは23タスクのうち10タスクにおいて平均的な人間レータ性能を上回り、Codexは23タスクのうち17タスクにおいて平均的な人間レータ性能を上回ります。
    論文  参考訳(メタデータ)   (Mon, 17 Oct 2022 17:08:26 GMT)
    • BIG-Benchで人のスコアを上回らなかった23タスクに焦点を当て、Chain of Thoughtの適用で10 or 17タスクで性能の改善が見られたとのこと。
      • CoTめっちゃ強力…
    • プロジェクトサイトはsuzgunmirac/BIG-Bench-Hard: BIG-Bench-Hard (github.com)

Vision-Language Pre-training

  • Vision-Language Pre-training: Basics, Recent Advances, and Future Trends [158.3]
    近年,マルチモーダルインテリジェンスのための視覚言語事前学習法が開発されている。 各カテゴリについて、最先端の手法の総合的なレビューを行い、現在進行中の進歩と課題について論じる。 また,研究コミュニティにおいて,大規模基盤モデル,統合モデリング,文脈内数発の学習,知識,堅牢性,コンピュータビジョンなど,高度なトピックが積極的に検討されていることについても論じる。
    論文  参考訳(メタデータ)   (Mon, 17 Oct 2022 17:11:36 GMT)
    • 画像-言語のマルチモーダルモデルに対する極めて詳細なサーベイ

Simple and Effective Unsupervised Speech Translation

  • Simple and Effective Unsupervised Speech Translation [68.3]
    ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。 事前学習された音声モデルに対する教師なし領域適応手法を提案する。 実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
    論文  参考訳(メタデータ)   (Tue, 18 Oct 2022 22:26:13 GMT)
  • unsupervised なspeech-to-text translation (S2TT)とspeech-to-speech translation (S2ST)構築方法の提案。既存の知見をゴリゴリ使うアプローチで界隈の状況を知る上でも非常に参考になる。

Imagic: Text-Based Real Image Editing with Diffusion Models

  • Imagic: Text-Based Real Image Editing with Diffusion Models [19.1]
    我々は、複雑なテキストガイド付きセマンティック編集を1つの実画像に適用できることを実証する。 提案手法は1つの入力画像と1つのターゲットテキストのみを必要とする。 実際のイメージで動作し、追加の入力を必要としない。
    論文  参考訳(メタデータ)   (Mon, 17 Oct 2022 17:27:32 GMT)
    • 画像+指示で画像編集ができる手法提案。「鳥の画像」+「羽を広げる」で羽を広げた鳥の画像を生成可能。スタイル変換だけではなく物体の形も編集できているのが凄い。

Transcending Scaling Laws with 0.1% Extra Compute 

  • Transcending Scaling Laws with 0.1% Extra Compute [128.1]
    言語モデルをスケールすることでパフォーマンスが向上するが、計算コストは大幅に向上する。 本稿では,既存の言語モデルとそのスケーリング曲線を,比較的少量の余剰計算で大幅に改善するUL2Rを提案する。 ほぼ無視可能な余分な計算コストと新しいデータソースがなければ、ダウンストリームメトリクス上の大規模言語モデルのスケーリング特性を大幅に改善できることを示す。
    論文  参考訳(メタデータ)   (Thu, 20 Oct 2022 16:46:41 GMT)
    • 処理を行ったU-PaLMは、英語のNLPタスク(例えば、常識推論、質問応答)、連鎖思考(eg、GSM8K)、多言語タスク(MGSM、TydiQA)、MMLU、BIG-Benchタスクなどでfew-shot PaLMよりも優れているとのこと。

Scaling Instruction-Finetuned Language Models

  • Scaling Instruction-Finetuned Language Models [126.5]
    命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。 命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
    論文  参考訳(メタデータ)   (Thu, 20 Oct 2022 16:58:32 GMT)
    • 1,836のタスクでfine tuning(instruction finetuning)することで様々なタスクに対する性能が向上したとする論文。PaLMに対してinstruction fine tuningを行ったFlan-PaLM 540BはもともとのPaLMを大幅に性能改善し、five-shot MMLUでSoTA。使用するタスクサイズが増えるほど性能向上傾向がみられるが、282タスクで概ね頭打ちになっている
      • それ以上増やしても新たな知識を提供していないのでは?もしくは言語モデル内の知識を表現するために一定以上のタスクは役に立たないのでは?との指摘があるが、新たな知識・情報を提供するための条件にめっちゃ興味がある。