ブラックボックス最適化

Black-box Optimization に関する論文

  • OpenBox: A Python Toolkit for Generalized Black-box Optimization [33.9]
    Black-box Optimization (BBO) には、自動機械学習、実験設計、データベースノブチューニングなど、幅広い応用がある。 本稿では,ユーザビリティを向上したオープンソースのBBOツールキットであるOpenBoxについて述べる。 ユーザがタスクを定義したり管理したりするためのユーザフレンドリーなインターフェースと視覚化を実装している。
    論文  参考訳(メタデータ)   (Wed, 26 Apr 2023 07:13:50 GMT)
  • 様々な手法が実装されているOpenBoxの論文、個別手法のリポジトリとしてはよく見るような気がする
  • GitHub – PKU-DAIR/open-box: Generalized and Efficient Blackbox Optimization System [SIGKDD’21].

WizardLM

  • WizardLM: Empowering Large Language Models to Follow Complex Instructions [67.4]
    ヒトの代わりに大規模言語モデルを用いて、様々なレベルの複雑さを持つ大量の命令データを作成する方法を示す。 我々は提案したEvol-Instructを使って、より複雑な命令と微調整のLLaMAを段階的に書き直す。 複雑性バランステストベッド上での人間評価は、Evol-Instructからの指示が人間が作ったものよりも優れていることを示している。
    論文  参考訳(メタデータ)   (Mon, 24 Apr 2023 16:31:06 GMT)
  • 現実問題として規約的にできない場合はあるが、LLMを用いた instruction dataの作成。様々な複雑さのデータを作れるのが特徴とのこと。作成したデータ+LLaMAで作ったモデルはAlpaca、Vicunaより優れているように見えるがChatGPTには及んでいなさそう。
  • リポジトリはGitHub – nlpxucan/WizardLM: WizardLM: Empowering Large Pre-Trained Language Models to Follow Complex Instructions

バイアス修正

同日に公平性関連の論文が出ており非常に参考になった。社会実装上とても大事。

  • FairBalance: How to Achieve Equalized Odds With Data Pre-processing [33.0]
    本研究は、機械学習ソフトウェアにおける等化オッズフェアネスを達成するための、単純で効果的な前処理アプローチを提供することにより、ソフトウェア工学社会の利益を目指している。 学習データに計算重みを割り当てることで,各階層群のクラス分布のバランスをとる前処理アルゴリズムであるFairBalanceを提案する。
    論文  参考訳(メタデータ)   (Wed, 26 Apr 2023 13:48:17 GMT)
  • Equalized Oddsを達成するための前処理手法の提案
  • 性能を完全に維持できているわけではないが優秀そうな方法
  • リポジトリはGitHub – hil-se/FairBalance

Multimodal Image Synthesis and Editing: A Survey

  • Multimodal Image Synthesis and Editing: A Survey [104.0]
    コンピュータビジョンとディープラーニングの研究において、マルチモーダル情報間の効果的な相互作用と融合が重要な役割を担っている。 マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。 近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。 ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
    論文  参考訳(メタデータ)   (Mon, 24 Apr 2023 12:43:35 GMT)
  • 画像生成・編集に関するサーベイのver4
  • GitHub – fnzhan/MISE: Multimodal Image Synthesis and Editing: A Survey

A Survey of Adversarial Defences and Robustness in NLP

  • A Survey of Adversarial Defences and Robustness in NLP [26.3]
    深層ニューラルネットワークは、入力データにおける敵の摂動に耐えるほど弾力性がないことが、ますます明らかになっている。 NLPにおける敵防御のためのいくつかの手法が提案され、異なるNLPタスクに対応している。 本調査は,過去数年間にNLPにおける敵防衛のために提案された様々な手法を,新しい分類法を導入して検討することを目的とする。
    論文  参考訳(メタデータ)   (Tue, 18 Apr 2023 05:00:29 GMT)
  • NLPにおける敵対的攻撃への防御に関するサーベイ
  • conclusionがサーベイ自体のサマリになっておりざっくりと説明するには良い資料な気がする

GPT-#関連

毎週GPT-Xに関する論文は多い。オープンな動き共に要チェック。

  • Evaluation of GPT-3.5 and GPT-4 for supporting real-world information needs in healthcare delivery [17.5]
    本研究の目的は, 2つの大規模言語モデル (LLM) が, 医師が提供した情報ニーズを, 安全かつ一致した方法で情報相談サービスに提供できるかどうかを判断することであった。 GPT-3.5では,8質問に対する回答はインフォマティクス・コンサルティング・レポートと一致し,20問,9問は評価できなかった。 回答の20%未満は、情報相談サービスからの回答と一致し、回答には幻覚的基準が含まれており、医師は被害を構成するものについて分割された。
    論文  参考訳(メタデータ)   (Wed, 26 Apr 2023 17:54:28 GMT)
  • 医療分野におけるGPT-3.5、GPT-4の利用が可能かに関する報告
  • 「These results suggest that while general purpose LLMs are able to provide safe and credible responses, they often do not fully meet the specific information need of a given question.」とのことでリスクの高い回答を避けている(ゆえに情報ニーズに合っていない)という結果のよう
  • Differentiate ChatGPT-generated and Human-written Medical Texts [8.5]
    この研究は、医学における責任と倫理的AIGC(Artificial Intelligence Generated Content)に関する最初の研究である。 本稿では,ChatGPTによる人的専門家による医療用テキストの差異の分析に焦点をあてる。 次のステップでは、これらの2種類の内容の言語的特徴を分析し、語彙、部分音声、依存性、感情、難易度などの違いを明らかにする。
    論文  参考訳(メタデータ)   (Sun, 23 Apr 2023 07:38:07 GMT)
  • ChatGPTによって生成された医療用テキストと人間の専門家が書いたテキストの差異を検証した報告
  • 「Medical texts written by humans are more concrete, more diverse, and typically contain more useful information, while medical texts generated by ChatGPT pay more attention to fluency and logic, and usually express general terminologies rather than effective information specific to the context of the problem.」という結果は一つ上の論文と整合的に思える。
  • Boosting Theory-of-Mind Performance in Large Language Models via Prompting [2.5]
    本研究は,GPT-4および3種類のGPT-3.5のToM特性を測定する。 ToM理解の改善における文脈内学習の有効性を検討した。
    論文  参考訳(メタデータ)   (Wed, 26 Apr 2023 04:02:04 GMT)
  • ToM特性の測定とin-context learningの有効性に関する報告
  • chain-of-thought reasoningやstep-by-step thinkingはともかくとしてfew shotでの(近い例題を参照しつつ)ToM測るというのはそもそもありなんだろうか?と思いつつGPT-4の有用性は表れているように思う
  • AI-assisted coding: Experiments with GPT-4 [0.2]
    GPT-4は、かなりのカバレッジでテストを生成することができるが、ほとんどのテストは関連するコードに適用されない。 これらの結果は、AIコーディングツールは非常に強力であるが、結果の妥当性と正確性を保証するためには、まだ人間を必要とすることを示唆している。
    論文  参考訳(メタデータ)   (Tue, 25 Apr 2023 22:59:01 GMT)
  • GPT-4のコーディング支援に関する報告
  • 「It should be emphasized that these results do not assess the accuracy of the code; rather, they suggest that GPT-4 can help programmers achieve code that is cleaner and potentially more maintainable than the original.」という指摘は興味深い。GPT-4の支援でメンテナンス性が上がるのであればとってもありがたい
  • Can GPT-4 Perform Neural Architecture Search? [57.0]
    ニューラルアーキテクチャサーチ(NAS)におけるGPT-4の可能性について検討する。 提案手法である GPT-4 Enhanced Neural archItectUre Search (GENIUS)は、いくつかのベンチマークで評価、既存のNAS技術と比較し、その効果を実証した。
    論文  参考訳(メタデータ)   (Mon, 24 Apr 2023 14:56:54 GMT)
  • GPT-4を用いたNAS、効果があるというのは面白く意外な結果。Kaggleの相談役としても有効とかいう話もあり、チューニングテクニックの情報を何らかの形で持っているからなんだろうか。(それでもいろいろな形で情報が入っているはずの既存手法と比べて一定の優位性があるのが意外ではあるが)
  • リポジトリはGitHub – mingkai-zheng/GENIUS
  • ChatGPT vs State-of-the-Art Models: A Benchmarking Study in Keyphrase Generation Task [0.0]
    ChatGPTを含むトランスフォーマーベースの言語モデルは、様々な自然言語生成タスクにおいて例外的な性能を示した。 本研究は、ChatGPTのキーフレーズ生成性能と最先端モデルを比較し、この分野における2つの重要な課題に対する解決策としての可能性をテストする。
    論文  参考訳(メタデータ)   (Thu, 27 Apr 2023 13:25:43 GMT)
  • キーフレーズ生成における比較
  • KeyBARTを超える性能でこの手のタスクの相性はさすが
  • Is ChatGPT a Good NLG Evaluator? A Preliminary Study [53.1]
    NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。 実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。 我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
    論文  参考訳(メタデータ)   (Tue, 25 Apr 2023 16:15:20 GMT)
  • ChatGPTをNLGの評価用に使おうという報告
  • 今までもかなり性能が良いのでは?という論文が多かったが、基本的には同じ結論
  • リポジトリはGitHub – krystalan/chatgpt_as_nlg_evaluator: Technical Report: Is ChatGPT a Good NLG Evaluator? A Preliminary Study
  • Evaluating ChatGPT’s Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness [18.9]
    7つのきめ細かい情報抽出(IE)タスクを用いてChatGPTの全体的な能力を評価することに集中する。 標準IE設定でのChatGPTのパフォーマンスは劣っているが、OpenIE設定では驚くほど優れたパフォーマンスを示している。 ChatGPTは、その決定に対して高品質で信頼できる説明を提供する。
    論文  参考訳(メタデータ)   (Sun, 23 Apr 2023 12:33:18 GMT)
  • 情報抽出分野での比較
  • 標準的な設定ではSoTAなモデルには及ばないが、オープンな設定では極めて強力
  • 特化型モデルには勝てないけど基本的には強力という結果でこれも他の報告と整合的

化学分野の事前学習モデル

  • A Systematic Survey of Chemical Pre-trained Models [38.6]
    ディープニューラルネットワーク(DNN)をスクラッチからトレーニングするには、しばしば大量のラベル付き分子を必要とする。 この問題を緩和するため、分子事前学習モデル(CPM)に多大な努力が注がれている。 CPMは、大規模未ラベルの分子データベースを使用して事前訓練され、特定の下流タスクに対して微調整される。
    論文  参考訳(メタデータ)   (Thu, 27 Apr 2023 03:30:37 GMT)
  • 分子の表現のように化学分野の事前学習モデルのサーベイ

Sabi\’a: Portuguese Large Language Models

  • Sabi\’a: Portuguese Large Language Models [5.0]
    対象言語における単言語事前学習は,すでに多種多様なコーパスで訓練されているモデルを大幅に改善することを示した。 ポルトガルの14のデータセットからなるスイートであるPoetaに関するわずかな評価によると、我々のモデルは、英語と多言語で比較すると、かなり差がある。
    論文  参考訳(メタデータ)   (Sun, 16 Apr 2023 20:11:19 GMT)
  • マルチリンガルモデルを単言語コーパスで継続的に事前学習することで当該言語での性能を大幅に向上できるという報告
  • ベースラインモデルの計算量の3%程度で相当の性能向上、LLaMA 65Bを使った場合はgpt-3.5-turboに匹敵ととても効果的に見える。
  • 日本語でも同じようなことができるのか興味津々(もっとも個人で再現させるにはちょっと高いが)

Audio Diffusion Modelに関するサーベイ

  • A Survey on Audio Diffusion Models: Text To Speech Synthesis and Enhancement in Generative AI [64.7]
    生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。 拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。 本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
    論文  参考訳(メタデータ)   (Sun, 2 Apr 2023 09:27:20 GMT)
  • text-to-speechとspeech enhancementを対象とした拡散モデル利用のサーベイ

Active Learning for Multilingual Semantic Parser

  • Active Learning for Multilingual Semantic Parser [56.1]
    多言語意味解析(AL-MSP)のための最初の能動的学習手法を提案する。 AL-MSPは翻訳対象の既存のデータセットからサブセットのみを選択する。 実験の結果,AL-MSPは理想的な選択法で翻訳コストを大幅に削減できることがわかった。
    論文  参考訳(メタデータ)   (Thu, 13 Apr 2023 13:30:06 GMT)
  • マルチリンガルなSemantic Parserを対象としたアクティブラーニング、翻訳コストを減らすことがモチベーションのようだがNLPに対するアクティブラーニングでうまくいく事例として興味深い
  • 当然ながら「Clearly, human translation delivers a greater output quality compared to machine translation.」なのでアクティブラーニングがうまく動作すると人間で…という方向が期待される