staka – ページ 209 – arXiv最新論文の紹介

GPT-#関連

毎週GPT-Xに関する論文は多い。オープンな動き共に要チェック。

Evaluation of GPT-3.5 and GPT-4 for supporting real-world information needs in healthcare delivery [17.5]
本研究の目的は, 2つの大規模言語モデル (LLM) が, 医師が提供した情報ニーズを, 安全かつ一致した方法で情報相談サービスに提供できるかどうかを判断することであった。 GPT-3.5では,8質問に対する回答はインフォマティクス・コンサルティング・レポートと一致し,20問,9問は評価できなかった。回答の20%未満は、情報相談サービスからの回答と一致し、回答には幻覚的基準が含まれており、医師は被害を構成するものについて分割された。
論文参考訳（メタデータ） (Wed, 26 Apr 2023 17:54:28 GMT)
医療分野におけるGPT-3.5、GPT-4の利用が可能かに関する報告
「These results suggest that while general purpose LLMs are able to provide safe and credible responses, they often do not fully meet the specific information need of a given question.」とのことでリスクの高い回答を避けている（ゆえに情報ニーズに合っていない）という結果のよう

Differentiate ChatGPT-generated and Human-written Medical Texts [8.5]
この研究は、医学における責任と倫理的AIGC(Artificial Intelligence Generated Content)に関する最初の研究である。本稿では,ChatGPTによる人的専門家による医療用テキストの差異の分析に焦点をあてる。次のステップでは、これらの2種類の内容の言語的特徴を分析し、語彙、部分音声、依存性、感情、難易度などの違いを明らかにする。
論文参考訳（メタデータ） (Sun, 23 Apr 2023 07:38:07 GMT)
ChatGPTによって生成された医療用テキストと人間の専門家が書いたテキストの差異を検証した報告
「Medical texts written by humans are more concrete, more diverse, and typically contain more useful information, while medical texts generated by ChatGPT pay more attention to ﬂuency and logic, and usually express general terminologies rather than eﬀective information speciﬁc to the context of the problem.」という結果は一つ上の論文と整合的に思える。

Boosting Theory-of-Mind Performance in Large Language Models via Prompting [2.5]
本研究は,GPT-4および3種類のGPT-3.5のToM特性を測定する。 ToM理解の改善における文脈内学習の有効性を検討した。
論文参考訳（メタデータ） (Wed, 26 Apr 2023 04:02:04 GMT)
ToM特性の測定とin-context learningの有効性に関する報告
chain-of-thought reasoningやstep-by-step thinkingはともかくとしてfew shotでの（近い例題を参照しつつ）ToM測るというのはそもそもありなんだろうか？と思いつつGPT-4の有用性は表れているように思う

AI-assisted coding: Experiments with GPT-4 [0.2]
GPT-4は、かなりのカバレッジでテストを生成することができるが、ほとんどのテストは関連するコードに適用されない。これらの結果は、AIコーディングツールは非常に強力であるが、結果の妥当性と正確性を保証するためには、まだ人間を必要とすることを示唆している。
論文参考訳（メタデータ） (Tue, 25 Apr 2023 22:59:01 GMT)
GPT-4のコーディング支援に関する報告
「It should be emphasized that these results do not assess the accuracy of the code; rather, they suggest that GPT-4 can help programmers achieve code that is cleaner and potentially more maintainable than the original.」という指摘は興味深い。GPT-4の支援でメンテナンス性が上がるのであればとってもありがたい

Can GPT-4 Perform Neural Architecture Search? [57.0]
ニューラルアーキテクチャサーチ(NAS)におけるGPT-4の可能性について検討する。提案手法である GPT-4 Enhanced Neural archItectUre Search (GENIUS)は、いくつかのベンチマークで評価、既存のNAS技術と比較し、その効果を実証した。
論文参考訳（メタデータ） (Mon, 24 Apr 2023 14:56:54 GMT)
GPT-4を用いたNAS、効果があるというのは面白く意外な結果。Kaggleの相談役としても有効とかいう話もあり、チューニングテクニックの情報を何らかの形で持っているからなんだろうか。（それでもいろいろな形で情報が入っているはずの既存手法と比べて一定の優位性があるのが意外ではあるが）
リポジトリはGitHub – mingkai-zheng/GENIUS

ChatGPT vs State-of-the-Art Models: A Benchmarking Study in Keyphrase Generation Task [0.0]
ChatGPTを含むトランスフォーマーベースの言語モデルは、様々な自然言語生成タスクにおいて例外的な性能を示した。本研究は、ChatGPTのキーフレーズ生成性能と最先端モデルを比較し、この分野における2つの重要な課題に対する解決策としての可能性をテストする。
論文参考訳（メタデータ） (Thu, 27 Apr 2023 13:25:43 GMT)
キーフレーズ生成における比較
KeyBARTを超える性能でこの手のタスクの相性はさすが

Is ChatGPT a Good NLG Evaluator? A Preliminary Study [53.1]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文参考訳（メタデータ） (Tue, 25 Apr 2023 16:15:20 GMT)
ChatGPTをNLGの評価用に使おうという報告
今までもかなり性能が良いのでは？という論文が多かったが、基本的には同じ結論
リポジトリはGitHub – krystalan/chatgpt_as_nlg_evaluator: Technical Report: Is ChatGPT a Good NLG Evaluator? A Preliminary Study

Evaluating ChatGPT’s Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness [18.9]
7つのきめ細かい情報抽出(IE)タスクを用いてChatGPTの全体的な能力を評価することに集中する。標準IE設定でのChatGPTのパフォーマンスは劣っているが、OpenIE設定では驚くほど優れたパフォーマンスを示している。 ChatGPTは、その決定に対して高品質で信頼できる説明を提供する。
論文参考訳（メタデータ） (Sun, 23 Apr 2023 12:33:18 GMT)
情報抽出分野での比較
標準的な設定ではSoTAなモデルには及ばないが、オープンな設定では極めて強力
特化型モデルには勝てないけど基本的には強力という結果でこれも他の報告と整合的

化学分野の事前学習モデル

A Systematic Survey of Chemical Pre-trained Models [38.6]
ディープニューラルネットワーク(DNN)をスクラッチからトレーニングするには、しばしば大量のラベル付き分子を必要とする。この問題を緩和するため、分子事前学習モデル(CPM)に多大な努力が注がれている。 CPMは、大規模未ラベルの分子データベースを使用して事前訓練され、特定の下流タスクに対して微調整される。
論文参考訳（メタデータ） (Thu, 27 Apr 2023 03:30:37 GMT)
分子の表現のように化学分野の事前学習モデルのサーベイ

Sabi\’a: Portuguese Large Language Models

Sabi\’a: Portuguese Large Language Models [5.0]
対象言語における単言語事前学習は,すでに多種多様なコーパスで訓練されているモデルを大幅に改善することを示した。ポルトガルの14のデータセットからなるスイートであるPoetaに関するわずかな評価によると、我々のモデルは、英語と多言語で比較すると、かなり差がある。
論文参考訳（メタデータ） (Sun, 16 Apr 2023 20:11:19 GMT)
マルチリンガルモデルを単言語コーパスで継続的に事前学習することで当該言語での性能を大幅に向上できるという報告
ベースラインモデルの計算量の3%程度で相当の性能向上、LLaMA 65Bを使った場合はgpt-3.5-turboに匹敵ととても効果的に見える。
日本語でも同じようなことができるのか興味津々（もっとも個人で再現させるにはちょっと高いが）

Audio Diffusion Modelに関するサーベイ

A Survey on Audio Diffusion Models: Text To Speech Synthesis and Enhancement in Generative AI [64.7]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文参考訳（メタデータ） (Sun, 2 Apr 2023 09:27:20 GMT)
text-to-speechとspeech enhancementを対象とした拡散モデル利用のサーベイ

Active Learning for Multilingual Semantic Parser

Active Learning for Multilingual Semantic Parser [56.1]
多言語意味解析(AL-MSP)のための最初の能動的学習手法を提案する。 AL-MSPは翻訳対象の既存のデータセットからサブセットのみを選択する。実験の結果,AL-MSPは理想的な選択法で翻訳コストを大幅に削減できることがわかった。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 13:30:06 GMT)
マルチリンガルなSemantic Parserを対象としたアクティブラーニング、翻訳コストを減らすことがモチベーションのようだがNLPに対するアクティブラーニングでうまくいく事例として興味深い
当然ながら「Clearly, human translation delivers a greater output quality compared to machine translation.」なのでアクティブラーニングがうまく動作すると人間で…という方向が期待される

AdaTest++

Supporting Human-AI Collaboration in Auditing LLMs with LLMs [10.1]
大きな言語モデルは偏見があり、無責任に振る舞うことが示されている。これらの言語モデルを厳格に監査することは重要である。既存の監査ツールは、人間とAIの両方を活用して失敗を見つける。
論文参考訳（メタデータ） (Wed, 19 Apr 2023 21:59:04 GMT)
LLMの監査ツール、
リポジトリはGitHub – microsoft/adatest at AdaTest++

AIOpsのサーベイ

AI for IT Operations (AIOps) on Cloud Platforms: Reviews, Opportunities and Challenges [60.6]
IT運用のための人工知能(AIOps)は、AIのパワーとIT運用プロセスが生成するビッグデータを組み合わせることを目的としている。我々は、IT運用活動が発信する重要なデータの種類、分析における規模と課題、そしてどのように役立つかについて深く議論する。主要なAIOpsタスクは、インシデント検出、障害予測、根本原因分析、自動アクションに分類します。
論文参考訳（メタデータ） (Mon, 10 Apr 2023 15:38:12 GMT)
AIOpsのサーベイ、AIOpsの定義は「AIOps combines big data and machine learning to automate IT operations processes, including event correlation, anomaly detection and causality determination」とのこと。
監視部分には（マルチモーダルな）LLMが入ったりしていくんだろうなと思わなくもない。

LLM as A Robotic Brain

LLM as A Robotic Brain: Unifying Egocentric Memory and Control [77.1]
Embodied AIは、物理的または仮想的なエンボディメント(つまりロボット)を持つインテリジェントシステムの研究と開発に焦点を当てている。メモリとコントロールは、具体化されたシステムの2つの不可欠な部分であり、通常、それぞれをモデル化するために別々のフレームワークを必要とします。ロボット脳として大規模言語モデルを用いて,エゴセントリックな記憶と制御を統一するLLM-Brainという新しいフレームワークを提案する。
論文参考訳（メタデータ） (Wed, 19 Apr 2023 00:08:48 GMT)
LLMのゼロショット性能を活用したロボットの行動計画＆制御
記憶と世界モデル的な部分をLLMに担当させているとのこと

XWikiGen

XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation in Low Resource Languages [11.6]
ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクであるXWikiGenを提案する。
論文参考訳（メタデータ） (Tue, 18 Apr 2023 09:38:59 GMT)
Crosslingualな要約タスク、mBARTの成績が良い（LLM系は検証対象とされていない？）
リポジトリはGitHub – DhavalTaunk08/XWikiGen: Codebase for the paper XWikiGen

Multimodal C4

Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text [104.0]
テキスト内ビジョンやFlamingoのような言語モデルは、任意のインターリーブされた画像とテキストのシーケンスを入力としてサポートする。このインターフェースをサポートするために、インターリーブされた画像+テキストを含むウェブコーパス上でプレトレーニングが行われる。我々はMultimodal C4 (mmc4) をリリースした。
論文参考訳（メタデータ） (Fri, 14 Apr 2023 06:17:46 GMT)
非常にありがたいマルチモーダルなデータセット。103Mドキュメント、585Mイメージ、43Btokenと大規模。
「mmc4 is constructed from public webpages contained in the cleaned English c4 corpus.」とのことで日本語はほぼ入っていなさそう・・・
プロジェクトサイトはGitHub – allenai/mmc4: MultimodalC4 is a multimodal extension of c4 that interleaves millions of images with text.

2026年7月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31