arXiv – ページ 110 – arXiv最新論文の紹介

Experimenting with an Evaluation Framework for Imbalanced Data Learning

Experimenting with an Evaluation Framework for Imbalanced Data Learning (EFIDL) [9.0]
データ不均衡は,ラベルの少ないビッグデータ分析において重要な問題のひとつだ。機械学習アルゴリズムの性能を改善するために、多くのデータバランス法が導入された。我々は不均衡なデータ学習のための新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (Thu, 26 Jan 2023 01:16:02 GMT)
不均衡データセットに対応する手法への評価フレームワークの提案。様々な手法が試されており、その部分も参考になる。（評価手法を間違えているので）不均衡データへの対応手法が非常に効果的と誤った結論を出しがちというのはとっても同意。この論文の結論の一つは「data augmentation does not help improve ML prediction performance」
参考にはなるのだが「Instead, we used the default parameters provided by the scikit-learn library.」というのは…

Semantic Scholar

The Semantic Scholar Open Data Platform [79.4]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文参考訳（メタデータ） (Tue, 24 Jan 2023 17:13:08 GMT)
Semantic Scholar | AI-Powered Research Tool の論文
ソフトウェア構成が非常に参考になる。一部はfugumt.comでも取り入れたい。

MusicLMとMusicCaps

MusicLM: Generating Music From Text [24.5]
テキスト記述から高忠実度音楽を生成するモデルであるMusicLMを紹介する。 MusicLMは、階層的なシーケンス・ツー・シーケンス・モデリングタスクとして条件付き音楽生成のプロセスをキャストする。実験の結果,MusicLMは従来のシステムよりも音質やテキスト記述の順応性が優れていることがわかった。
論文参考訳（メタデータ） (Thu, 26 Jan 2023 18:58:53 GMT)
テキストからの音楽生成、hierarchical sequence-to-sequence modelingとテンプレートレス。MusicCapsという名前で音楽とテキストのペアデータセット、55kを公開しているのも素晴らしい
プロジェクトサイトはMusicLM (google-research.github.io)、サンプルが聞けてそれっぽいのと歌声が入っているのも面白い。
MusicCapsデータセットはMusicCaps | Kaggleにあり、ライセンスはCC BY-SA 4.0

Toward General Design Principles for Generative AI Applications

Toward General Design Principles for Generative AI Applications [16.1]
生成AIアプリケーションの設計に関する7つの原則を提示する。生成AIの特徴として、複数の成果と不完全性、探索と制御、メンタルモデルと説明の6つの原則が重視されている。我々は、生成モデルの有害な出力、誤用、または人的変位の可能性によって引き起こされる可能性のある潜在的な害に対して設計をするようデザイナーに促す。
論文参考訳（メタデータ） (Fri, 13 Jan 2023 14:37:56 GMT)
近年、強力な生成系AI（画像生成、テキスト生成、…）のリリースが相次いでいるがその設計で守るべき原則を整理した論文、100以上の引用数があり納得感のある指摘となっている
７つの原則は「Design against harms」だけが独立（全体をカバー）、その他は「Multiple outputs」「Imperfection」「Mental models」「Explanation」「Exploration」「Control」が挙げられている。

DetectGPT

DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature [143.5]
学生は、大きな言語モデル(LLM)を使用して、書面の課題を完成させることができ、インストラクターは生徒の学習を正確に評価することができない。まず、LLMからサンプリングされたテキストがモデルのログ確率関数の負の曲率領域を占める傾向があることを示す。次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
論文参考訳（メタデータ） (Thu, 26 Jan 2023 18:44:06 GMT)
機械が生成されたテキストを検出する手法の提案
「minor rewrites of model-generated text tend to have lower log probability under the model than the original sample, while minor rewrites of human-written text may have higher or lower log probability than the original sample.」というシンプルな仮定で強力な性能を実現している
プロジェクトサイトはDetectGPT (ericmitchell.ai)

ChatGPTと翻訳

Is ChatGPT A Good Translator? A Preliminary Study [39.2]
翻訳能力を高めるためにChatGPTが推奨するプロンプトを採用する。多くのベンチマークテストセットを評価することで、ChatGPTは商用翻訳製品と競争的に機能することがわかった。 ChatGPTは、生物医学の要約やRedditのコメントに関する商業システムのようには機能しない。
論文参考訳（メタデータ） (Fri, 20 Jan 2023 08:51:36 GMT)
ChatGPTの翻訳性能を評価した論文。一般的にリソースが多いといわれている言語ペア（おそらくChatGPTの学習データに多い言語）についてはかなりの性能だが、そうでない言語は苦手としているよう。また、頑健性の意味でもイマイチな結果となっている。
とはいえ、Promptのみでの機械翻訳だと考えればかなり性能が高いという評価もできそう

A survey and taxonomy of loss functions in machine learning

A survey and taxonomy of loss functions in machine learning [60.4]
ほとんどの最先端の機械学習技術は、損失関数の最適化を中心に進化している。この調査は、初心者と高度な機械学習実践者の両方にとって最も重要な損失関数の参照を提供することを目的としている。
論文参考訳（メタデータ） (Fri, 13 Jan 2023 14:38:24 GMT)
機械学習におけるロス関数のサーベイ。これだけの内容を整理した論文（資料）はあまり見かけない気がしていて、考え方や狙いを整理するために有用。

On the State of German (Abstractive) Text Summarization

On the State of German (Abstractive) Text Summarization [3.2]
ドイツの抽象的テキスト要約の景観を評価する。業界において,抽象的なテキスト要約のための実用的なソリューションがいまだに欠落している理由を考察する。
論文参考訳（メタデータ） (Tue, 17 Jan 2023 18:59:20 GMT)
ドイツ語における抽象型要約の状況。非英語という点では日本語も近い状況なのではないかと思う。
一方で「Within just two years, we have also seen an unbelievable influx of available summarization datasets for German, importantly extending past the narrow domains into applicationspecific fields, such as law and medicine, and totaling more than 700.000 samples across publicly available resources.」はいいなーと思ったり。日本語データセットの拡充をしていかないといけないなーと思う今日この頃。

Prompting Large Language Model for Machine Translation: A Case Study

Prompting Large Language Model for Machine Translation: A Case Study [87.9]
我々は機械翻訳戦略の推進に関する体系的研究を行っている。本稿では,プロンプトテンプレートと実演例選択の要因について検討する。本稿では,モノリンガルデータの利用と,クロスリンガル,クロスドメイン,文-文書間伝達学習の実現可能性について検討する。
論文参考訳（メタデータ） (Wed, 18 Jan 2023 11:30:05 GMT)
機械翻訳のためのプロンプト戦略の検討
プロンプトテンプレートの作り方や最初の例の与え方が翻訳に大きく影響するようで、その点はそうだろうと思うが、一般的に有効な戦略を作るのはなかなか難しそうとの印象。

Dataset Distlillationのサーベイ

最近よく見るデータセット蒸留のサーベイ。基本的には少ないデータで十分な性能のモデル構築ができるようなデータセット作成を目的にしているが、生データを公開しなくてもよくなる場合があり情報保護の観点からも重要な技術になりうる。アプローチも様々で興味深い。

Dataset Distillation: A Comprehensive Review [54.3]
データセット蒸留(DD)は、いくつかの合成サンプルを含むはるかに小さなデータセットを目標としている。本稿では,最近のDDの進歩と応用について概説する。
論文参考訳（メタデータ） (Tue, 17 Jan 2023 17:03:28 GMT)

A Comprehensive Survey to Dataset Distillation [91.4]
限られた計算能力で無制限に成長するデータに対処することは困難になっている。ディープラーニング技術はこの10年で前例のない発展を遂げた。本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文参考訳（メタデータ） (Fri, 13 Jan 2023 15:11:38 GMT)

2024年10月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31