GPT-#関連

毎週GPT-Xに関する論文は多い。オープンな動き共に要チェック。

  • Evaluation of GPT-3.5 and GPT-4 for supporting real-world information needs in healthcare delivery [17.5]
    本研究の目的は, 2つの大規模言語モデル (LLM) が, 医師が提供した情報ニーズを, 安全かつ一致した方法で情報相談サービスに提供できるかどうかを判断することであった。 GPT-3.5では,8質問に対する回答はインフォマティクス・コンサルティング・レポートと一致し,20問,9問は評価できなかった。 回答の20%未満は、情報相談サービスからの回答と一致し、回答には幻覚的基準が含まれており、医師は被害を構成するものについて分割された。
    論文  参考訳(メタデータ)   (Wed, 26 Apr 2023 17:54:28 GMT)
  • 医療分野におけるGPT-3.5、GPT-4の利用が可能かに関する報告
  • 「These results suggest that while general purpose LLMs are able to provide safe and credible responses, they often do not fully meet the specific information need of a given question.」とのことでリスクの高い回答を避けている(ゆえに情報ニーズに合っていない)という結果のよう
  • Differentiate ChatGPT-generated and Human-written Medical Texts [8.5]
    この研究は、医学における責任と倫理的AIGC(Artificial Intelligence Generated Content)に関する最初の研究である。 本稿では,ChatGPTによる人的専門家による医療用テキストの差異の分析に焦点をあてる。 次のステップでは、これらの2種類の内容の言語的特徴を分析し、語彙、部分音声、依存性、感情、難易度などの違いを明らかにする。
    論文  参考訳(メタデータ)   (Sun, 23 Apr 2023 07:38:07 GMT)
  • ChatGPTによって生成された医療用テキストと人間の専門家が書いたテキストの差異を検証した報告
  • 「Medical texts written by humans are more concrete, more diverse, and typically contain more useful information, while medical texts generated by ChatGPT pay more attention to fluency and logic, and usually express general terminologies rather than effective information specific to the context of the problem.」という結果は一つ上の論文と整合的に思える。
  • Boosting Theory-of-Mind Performance in Large Language Models via Prompting [2.5]
    本研究は,GPT-4および3種類のGPT-3.5のToM特性を測定する。 ToM理解の改善における文脈内学習の有効性を検討した。
    論文  参考訳(メタデータ)   (Wed, 26 Apr 2023 04:02:04 GMT)
  • ToM特性の測定とin-context learningの有効性に関する報告
  • chain-of-thought reasoningやstep-by-step thinkingはともかくとしてfew shotでの(近い例題を参照しつつ)ToM測るというのはそもそもありなんだろうか?と思いつつGPT-4の有用性は表れているように思う
  • AI-assisted coding: Experiments with GPT-4 [0.2]
    GPT-4は、かなりのカバレッジでテストを生成することができるが、ほとんどのテストは関連するコードに適用されない。 これらの結果は、AIコーディングツールは非常に強力であるが、結果の妥当性と正確性を保証するためには、まだ人間を必要とすることを示唆している。
    論文  参考訳(メタデータ)   (Tue, 25 Apr 2023 22:59:01 GMT)
  • GPT-4のコーディング支援に関する報告
  • 「It should be emphasized that these results do not assess the accuracy of the code; rather, they suggest that GPT-4 can help programmers achieve code that is cleaner and potentially more maintainable than the original.」という指摘は興味深い。GPT-4の支援でメンテナンス性が上がるのであればとってもありがたい
  • Can GPT-4 Perform Neural Architecture Search? [57.0]
    ニューラルアーキテクチャサーチ(NAS)におけるGPT-4の可能性について検討する。 提案手法である GPT-4 Enhanced Neural archItectUre Search (GENIUS)は、いくつかのベンチマークで評価、既存のNAS技術と比較し、その効果を実証した。
    論文  参考訳(メタデータ)   (Mon, 24 Apr 2023 14:56:54 GMT)
  • GPT-4を用いたNAS、効果があるというのは面白く意外な結果。Kaggleの相談役としても有効とかいう話もあり、チューニングテクニックの情報を何らかの形で持っているからなんだろうか。(それでもいろいろな形で情報が入っているはずの既存手法と比べて一定の優位性があるのが意外ではあるが)
  • リポジトリはGitHub – mingkai-zheng/GENIUS
  • ChatGPT vs State-of-the-Art Models: A Benchmarking Study in Keyphrase Generation Task [0.0]
    ChatGPTを含むトランスフォーマーベースの言語モデルは、様々な自然言語生成タスクにおいて例外的な性能を示した。 本研究は、ChatGPTのキーフレーズ生成性能と最先端モデルを比較し、この分野における2つの重要な課題に対する解決策としての可能性をテストする。
    論文  参考訳(メタデータ)   (Thu, 27 Apr 2023 13:25:43 GMT)
  • キーフレーズ生成における比較
  • KeyBARTを超える性能でこの手のタスクの相性はさすが
  • Is ChatGPT a Good NLG Evaluator? A Preliminary Study [53.1]
    NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。 実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。 我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
    論文  参考訳(メタデータ)   (Tue, 25 Apr 2023 16:15:20 GMT)
  • ChatGPTをNLGの評価用に使おうという報告
  • 今までもかなり性能が良いのでは?という論文が多かったが、基本的には同じ結論
  • リポジトリはGitHub – krystalan/chatgpt_as_nlg_evaluator: Technical Report: Is ChatGPT a Good NLG Evaluator? A Preliminary Study
  • Evaluating ChatGPT’s Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness [18.9]
    7つのきめ細かい情報抽出(IE)タスクを用いてChatGPTの全体的な能力を評価することに集中する。 標準IE設定でのChatGPTのパフォーマンスは劣っているが、OpenIE設定では驚くほど優れたパフォーマンスを示している。 ChatGPTは、その決定に対して高品質で信頼できる説明を提供する。
    論文  参考訳(メタデータ)   (Sun, 23 Apr 2023 12:33:18 GMT)
  • 情報抽出分野での比較
  • 標準的な設定ではSoTAなモデルには及ばないが、オープンな設定では極めて強力
  • 特化型モデルには勝てないけど基本的には強力という結果でこれも他の報告と整合的

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です