毎週GPT-4関連のニュースが多い。近い検証が多くの場所で行われているようで似た結論の報告もされている。別のグループから同じ結果が得られていると信頼性が上がるのでとてもありがたい。
Amazonが対抗モデルAmazon Titanをプレビュー中、その他スタートアップのモデルも利用可能とする、Dolly v2が登場、OpenAssistantのモデルがなどOpenAI以外の動きにも期待したい。
Announcing New Tools for Building with Generative AI on AWS | AWS Machine Learning Blog (amazon.com)
OpenAssistant (OpenAssistant) (huggingface.co)
- AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [61.9]
我々は、人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGvalを紹介する。 GPT-4, ChatGPT, Text-Davinciなど, 最先端の基盤モデルの評価を行った。 GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (Thu, 13 Apr 2023 09:39:30 GMT) - AGI Evalというすごい名前のベンチマーク。面白いベンチマークではあるが一般に公開されSNSやBlog、ニュース記事等で言及されていそうなものはLeakのリスクが高いような気もする。
- リポジトリはGitHub – microsoft/AGIEval
- Interpretable Unified Language Checking [42.8]
本稿では,人間と機械生成言語の両方に対して,解釈可能で統一された言語チェック(UniLC)手法を提案する。 ファクトチェック, ステレオタイプ検出, ヘイトスピーチ検出タスクの組み合わせにより, LLM は高い性能が得られることがわかった。
論文 参考訳(メタデータ) (Fri, 7 Apr 2023 16:47:49 GMT) - チェックにLLMを使う提案。Interpretable・・・?
- GitHub – luohongyin/UniLC: Interpretable unified language safety checking with large language models
- ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.2]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。 一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。 しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文 参考訳(メタデータ) (Thu, 13 Apr 2023 10:59:39 GMT) - 上記同様ゼロショットでChatGPTを評価用に使用するもの。LLMはEvaluationにも有効という報告は別にもあり、有望そうなことが分かる
- 「its great potential for factual inconsistency evaluation」としている。
- ChatGPT-4 Outperforms Experts and Crowd Workers in Annotating Political Twitter Messages with Zero-Shot Learning [0.0]
本稿では、ツイートの内容に基づいて、Twitterポスターの政治的関連を分類するテキスト分析タスクにおいて、Large Language Model (LLM) ChatGPT-4の精度、信頼性、バイアスを評価する。 2020年の大統領選挙では、米国政治家のTwitterメッセージを使い、正確さを測定するための根拠となる真実を提供します。
論文 参考訳(メタデータ) (Thu, 13 Apr 2023 14:51:40 GMT) - GPT-4がクラウドワーカーより優れた性能との指摘
- Fugu-MT 論文翻訳(概要): ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks (fugumt.com) でも同様の指摘がある
- ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning [70.6]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。 本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。 従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (Wed, 12 Apr 2023 05:08:52 GMT) - ChatGPTの英語以外の性能検証、対象タスクはPart-of-Speech Tagging, Named Entity Recognition, Relation Extraction, Natural Language Inference, Question Answering, Common Sense Reasoning, Summarization
- 残念ながら日本語が検証対象になっていないがリソース別の比較から類推はできそう?(ChatGPTの言語比率が謎なので本当に類推しかできないが・・・)
- タスクによってもまちまちではあるが英語での性能が高いことが分かる。(この辺りは実感にも反していない)
- Toxicity in ChatGPT: Analyzing Persona-assigned Language Models [23.5]
大規模言語モデル(LLM)は驚くべき能力を示し、自然言語処理(NLP)コミュニティを超越した。 一般的な対話型LLMであるChatGPTの50万世代以上で毒性を系統的に評価した。 その結果,ChatGPTのシステムパラメータをペルソナに割り当てることで,生成の毒性が著しく向上することが判明した。
論文 参考訳(メタデータ) (Tue, 11 Apr 2023 16:53:54 GMT) - ペルソナを割り当てることでよろしくない出力を出せるという報告。これ自体はSNSでも話題になっているが体系的に調査されている点が素晴らしい。
- 特定の人名で攻撃性が増すなどするとその人の名誉を傷つけるかもしれないという指摘は重い。
- Multi-step Jailbreaking Privacy Attacks on ChatGPT [34.3]
本稿では,ChatGPTによって強化されたOpenAIのモデルAPIとNew Bingのプライバシー上の脅威について検討する。 我々は、当社の主張を裏付ける広範な実験を行い、LLMのプライバシーへの影響について論じる。
論文 参考訳(メタデータ) (Tue, 11 Apr 2023 13:05:04 GMT) - ChatGPTから個人情報を抽出するための攻撃。
- 強力であるがゆえに悪用もでき、それ自体での防御は難しそうな印象。このような攻撃をサニタイズするのもしんどそう(用途が特定されていればガードはできそうだが、一般的な対処は簡単ではなさそう)
- Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [57.1]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。 本稿では, MMT における LLM の利点と課題を体系的に検討する。 我々は102言語でXGLM, OPT, BLOOMZ, ChatGPTなどの人気のあるLLMを評価した。
論文 参考訳(メタデータ) (Mon, 10 Apr 2023 15:51:30 GMT) - LLMに対する機械翻訳性能の評価
- 言語タイプの差異、プロンプトの差異など非常に参考になる。ChatGPTであっても多くの言語ペアでNLLBに及ばないとの結果。
- 「BLOOMZ may have seen test cases in Flores-101 during training」という式がされていてLeakの危険を指摘している。様々なデータを使う事自体を悪いと言うのは難しいが、評価が困難になる…
- ChatPipe: Orchestrating Data Preparation Program by Optimizing Human-ChatGPT Interactions [17.7]
ChatPipeは、ユーザとChatGPT間のシームレスなインタラクションを容易にするように設計された、新しいシステムである。 ChatPipeは、次のデータ準備操作に対して効果的なレコメンデーションを提供し、ChatGPTをガイドしてオペレーションのプログラムを生成する。 われわれはChatPipe用のWebアプリケーションを開発し、Kaggleから現実のMLタスクを複数用意した。
論文 参考訳(メタデータ) (Fri, 7 Apr 2023 08:33:08 GMT) - データ準備のためのアプリケーション
- 色々組み合わせ、プロンプトを工夫し、…と実アプリケーションを作るのは結構大変だなと思う内容(とはいえ実態はこんな感じだとも思う)