staka – ページ 65 – arXiv最新論文の紹介

Users are the North Star for AI Transparency

Users are the North Star for AI Transparency [111.6]
透明な人工知能システムを求める声が広まっているにもかかわらず、この用語は、厳密な政策の目的や具体的な研究ラインのオリエント化を表すために、多義的な意味に過大評価されている。このことが起こる理由の1つは、AI透明性の明確な理想が、この仕事の体で実現されないことである。透明性はユーザ中心で、ユーザ指向で、誠実です。
論文参考訳（メタデータ） (Thu, 9 Mar 2023 18:53:29 GMT)
AIの透明性（AI Transparency）について調査した論文で、様々な文脈・意図で使われていることが分かる。
何とか性とカテゴライズすると安心しがちだが、実はその解釈が異なっていることは多いので詳細を詰めていくことはとても重要。

CaFo: Cascade of Foundation models

Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners [55.1]
CaFoは、様々な事前学習パラダイムの様々な事前知識を取り入れた、ファウンデーションのカスケードモデルである。私たちのCaFoには、CLIPの言語コントラスト知識、DINOの視覚コントラスト知識、DALL-Eの視覚生成知識、GPT-3の言語生成知識が含まれています。
論文参考訳（メタデータ） (Fri, 3 Mar 2023 18:58:16 GMT)
Foundationモデルを複数使うことによりfew shotでの画像分類で優れた性能を実現。寄せ集め感もあるがちゃんと性能が向上していて各モデルの知識が引き出せているのが面白い。
プロジェクトサイトはGitHub – ZrrSkywalker/CaFo: [CVPR 2023] Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners

Consistency Analysis of ChatGPT

Consistency Analysis of ChatGPT [54.2]
ChatGPTは,大規模言語モデルに基づく質問・回答対話システムである。論理的に一貫した行動に関するChatGPTの信頼性について検討する。
論文参考訳（メタデータ） (Sat, 11 Mar 2023 01:19:01 GMT)
ChatGPTの一貫性評価、BECEL: Benchmark for Consistency Evaluation of Language Models (aclanthology.org)を利用
ChatGPTはnegation consistencyに優れている一方でsymmetric consistencyがいまいちという結果。
「ChatGPT fails to distinguish between the labels of “Neutral” and “Contradiction”.」や「Moreover, in inputorder invariant tasks, ChatGPT is likely to make a different decision when the order of the input sentences is switched.」というのも興味深い。著者らはハイリスクな用途に使うのは致命的な問題と指摘している。

TGDataset

TGDataset: a Collection of Over One Hundred Thousand Telegram Channels [69.2]
本稿では,120,979のTelegramチャネルと4億以上のメッセージを含む新しいデータセットであるTGDatasetを提案する。我々は、データセット内で話される言語と、英語チャンネルでカバーされるトピックを分析した。生のデータセットに加えて、データセットの分析に使用したスクリプトと、Sabmykと呼ばれる新しい陰謀論のネットワークに属するチャネルのリストもリリースしました。
論文参考訳（メタデータ） (Thu, 9 Mar 2023 15:42:38 GMT)
120,979のTelegramチャネルと4億以上のメッセージを含む巨大なデータセット、約460 GB、snowball approach（シードとなるチャネルから初めて送信元チャネルを取得していく）で作成されたとのこと。
リポジトリはGitHub – SystemsLab-Sapienza/TGDataset: A collection of over 120’000 Telegram Channels、TGDataset | Zenodo

Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions

Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions [27.3]
ChatGPTは強力な大規模言語モデル(LLM)であり、自然言語理解において顕著な進歩を遂げている。本稿では,質問応答システム(QAS)としてのChatGPTの性能を,独自の知識を用いて評価するフレームワークを提案する。提案手法を用いて,8つの実世界のKBベースのCQAデータセットに対して,ChatGPTの性能評価を行う。
論文参考訳（メタデータ） (Tue, 14 Mar 2023 15:46:28 GMT)
QAデータを用いたChatGPT（＋GPT-3.5）の検証
データセットによって得意不得意があるようだが、ものによってはChatGPTがfine tunedなモデルを上回りSoTAという衝撃的な結果。
問題種別や言語種別ごとのスコアも書かれていて「However, the low score obtained in the Chinese test has puzzled us, and we cannot determine whether the cause of this situation is due to “insuﬃcient Chinese resources” or “low resource quality.”」との指摘がある。RLHFの影響なんだろうか・・・？

Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification

Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification [58.7]
本研究では,実環境における職種分類の課題について検討する。目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文参考訳（メタデータ） (Tue, 14 Mar 2023 17:01:59 GMT)
「Graduate Job Classiﬁcation（求職が大学・入学レベルの職位に適切かどうかを判断する問題）」を例にPLMを用いた分類モデルとLLM＋Promptの分類モデル構築を比較した論文。LLMはtext-davinci-002、text-davinci-003、gpt-3.5-turbo-0301を対象にPromptエンジニアリングを実施、10000件のデータを7000件の学習データと3000件のテストデータに分けて検証している。結果、GPT-3.5は優れた性能を発揮している（メトリクスによってはDeBERTa-V3の負けているが…）
色々検証しているとGPT-3.5からかなり強力になっている印象でこの論文の結果にも納得感がある。GPT-4を使うとどうなるか非常に楽しみ。
プロンプトを改善していく過程も非常に参考になる。

Scaling up GANs for Text-to-Image Synthesis

Scaling up GANs for Text-to-Image Synthesis [59.5]
テキストから画像への合成が最近成功したことで、世界は嵐にさらされ、一般大衆の想像力を捉えた。技術的な観点から言えば、生成的イメージモデルを設計するために好まれるアーキテクチャが劇的に変化した。GANはかつて、StyleGANのようなテクニックを使って、事実上の選択肢でした。 DALL-E 2では、自動回帰モデルと拡散モデルが大規模生成モデルの新たな標準となった。我々は,この限界を超える新しいGANアーキテクチャであるGigaGANを紹介する。
論文参考訳（メタデータ） (Thu, 9 Mar 2023 18:59:47 GMT)
Stable Diffusionを超える（低いFID）性能のGANアーキテクチャのモデル。プロジェクトサイトを見る限り品質が高く、そして動作が高速。
リポジトリはGigaGAN: Scaling up GANs for Text-to-Image Synthesis (mingukkang.github.io)

GPT-4, PaLM API, Alpaca, ChatGLM

GPT-4、PaLM API、Anthropic Claude、Alpaca、ChatGLMなど重要な発表が多かった一週間だった。OpenAI、Big Tech、スタートアップ、アカデミアと様々な研究機関が競争しており非常に興奮する一方で情報を追うのが大変。。

GPT-4 Technical Report [0.0]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文参考訳（メタデータ） (Thu, 16 Mar 2023 04:59:24 GMT)
GPT-3.5の発展版、マルチモーダルな大規模言語モデル。このレポートからも非常に強力な性能のようであるし、簡易的な検証（GPT-4の翻訳性能 | ぷるーふおぶこんせぷと (staka.jp)）からも性能が向上していることは間違いなさそう。
一方で詳細はまだ明確でない気がする。残念ながらデータセットやアーキテクチャ、パラメータ数は非公開。

GoogleからはPaLMのAPI化が発表されている（Google Developers Blog: PaLM API & MakerSuite: an approachable way to start prototyping and building generative AI applications (googleblog.com)）。また、生成AIのGoogle Cloudでのりようについても積極的に展開しそう（Google Cloud brings generative AI to developers, businesses, and governments | Google Cloud Blog）。

ChatGPTと競合するAnthropic | Introducing Claudeも発表されるなどおそらくこの周辺のスタートアップも多そう。

オープンな流れとしてはLLaMAから構築されたGitHub – tatsu-lab/stanford_alpaca: Code and documentation to train Stanford’s Alpaca models, and generate the data.（非商用利用のみ）、GLMベースのChatGLM-6B/README_en.md at main · THUDM/ChatGLM-6B · GitHub（Apache-2ライセンス）などが発表されている。

様々な観点（性能やコスト、Trustworthyな要素など）から比較してみたいのと、純粋になぜ多く問題が取り扱えるか？という理由が知りたい。

SelfCheckGPT

SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models [35.6]
SelfCheckGPTは、ゼロリソース方式でファクトチェックブラックボックスモデルに対する単純なサンプリングベースアプローチである。我々は、GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する。我々は,SelfCheckGPTが,非事実文と事実文とを検出できることを示す。
論文参考訳（メタデータ） (Wed, 15 Mar 2023 19:31:21 GMT)
ゼロリソース、ブラックボックス（LLMの応答のみ利用）で実行可能なHullucination検出方法の提案。Hullucinationが起きない、LLMが良く知っているものであれば応答も近しくなるというアイデア
リポジトリはGitHub – potsawee/selfcheckgpt: SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models

A Survey on Long Text Modeling with Transformers

A Survey on Long Text Modeling with Transformers [33.9]
本稿では,Transformerモデルに基づく長文モデリングの最近の進歩について概説する。長さ制限を満たすために長い入力を処理し、改良されたTransformerアーキテクチャを設計する方法について論じる。本稿では,長文モデリングに関わる4つの典型的な応用について述べるとともに,今後の方向性を議論する。
論文参考訳（メタデータ） (Tue, 28 Feb 2023 11:34:30 GMT)
長文モデリングに関するサーベイ。近年の研究成果で緩和されている部分も大きいが以前重要なテーマ。
対象としている典型的な応用はテキスト要約、質問応答、テキスト分類、テキストマッチングの4つ。

2024年4月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30