API – arXiv最新論文の紹介

APIDocBooster

APIDocBooster: An Extract-Then-Abstract Framework Leveraging Large Language Models for Augmenting API Documentation [21.9]
APIDocBoosterは、抽出的(長さ制限のない忠実な要約を可能にする)と抽象的要約(コヒーレントで簡潔な要約を生成する)の両方の利点を融合させる。 APIDocBoosterは2つのステージで構成されている。 Sentence Section Classification (CSSC) と UPdate SUMmarization (UPSUM) である。
論文参考訳（メタデータ） (Mon, 18 Dec 2023 05:15:50 GMT)
APIのドキュメントを作成するためにセクション認識、抽出型の要約、抽象型の要約を組み合わせる手法を提案。通常の方法でGPT-4を使った場合に比べて優れているとのこと。単純にLLMを使うよりも問題を適切に分割していって使うと効果的という結果に見受けられる。

HAPI: A Large-scale Longitudinal Dataset of Commercial ML API Predictions [35.5]
商用ML APIアプリケーションの1,761,417インスタンスの時系列データセットであるHAPIを提示する。各インスタンスは、APIに対するクエリ入力と、APIの出力予測/アノテーションと信頼性スコアで構成されている。
論文参考訳（メタデータ） (Sun, 18 Sep 2022 01:52:16 GMT)
- 様々な商用APIの予測結果をまとめたデータセット。2020年～2022年にGoogle、Microsoft、AmazonなどのML APIによってアノテートされた1,761,417件のデータが含まれるとのこと。
- API更新によって間違いが修正される一方で新たなエラーをもたらすことがある、など各社の苦労が透けて見えるデータ…

Did the Model Change? Efficiently Assessing Machine Learning API Shifts [24.3]
機械学習(ML)予測APIはますます広く使われている。モデル更新や再トレーニングのために、時間とともに変更することも可能だ。 MLモデルがどのように変更されたかは、ユーザにとって明確ではないことが多い。MASAは、ランダムサンプリングよりも90%少ないサンプルを用いて、商用ML APIの混同行列シフトを正確に推定することができる。
論文参考訳（メタデータ） (Thu, 29 Jul 2021 17:41:53 GMT)
- 「さまざまなデータセット上で、Google、Microsoft、Amazonなどから人気のML APIの2020年から2021年までのパフォーマンスシフトを定量化します。調査対象36例中12例に有意なモデルシフトを認めた。興味深いことに、APIの予測が時間とともに大幅に悪化するいくつかのデータセットを見つけました。」とのこと。API利用時のテストは初期には実施することが多いと思うが、その後のAPI更新時にも「性能がアップするだけ」と単純に考えてはいけないよう。継続的な検証のためには大事な技術である。