コンテンツへスキップ
- Don’t Make Your LLM an Evaluation Benchmark Cheater [142.2]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。 モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。 評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (Fri, 3 Nov 2023 14:59:54 GMT)
- LLMの評価についてよくある問題と影響を示した論文。data leakの影響が検証されている点が参考になる。当然ではあるがスコアに大きく影響する。
- 「As suggestions for LLM developers, it is important to perform the data decontamination checking between pre-training data and any related data (e g , training and test sets) when using evaluation benchmarks.」は当たり前だが簡単ではない。第三者検証ではモデル構築やファインチューニングなどに使用したデータが公開されていない場合対応はかなり難しい。正しい評価は簡単ではない。
- Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [82.2]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデル(Myriad)を提案する。 具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLM) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。 視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
論文 参考訳(メタデータ) (Sun, 29 Oct 2023 16:49:45 GMT)
- たまに思う略称が厳しい感じの報告、multi-modal model by applying vision experts for industrial anomaly detectionとのこと…
- 成果は「Experiments show that our proposed Myriad not only achieves superior performance than both vision experts and state-of-the-art methods, but also provide detailed description for industrial anomaly detection.」で異常検知時に説明が出るのは重要。
- リポジトリはGitHub – tzjtatata/Myriad: Open-sourced codes, IAD vision-language datasets and pre-trained checkpoints for Myriad.
- What’s In My Big Data? [67.0]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What’s In My Big Data?)を提案する。 WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。 これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (Tue, 31 Oct 2023 17:59:38 GMT)
- 大規模言語データセットの探索と解析を容易にするツールセット、採用例が多いデータセットが入っている。「several datasets used for benchmarking models trained on such corpora are contaminated with respect to important benchmarks, including the Winograd Schema Challenge and parts of GLUE and SuperGLUE」などFindingsが面白い。
- リポジトリはhttps://github.com/allenai/wimbdとのこと、プロジェクトサイトはWIMBD (allenai.org)
- Learning From Mistakes Makes LLM Better Reasoner [112.8]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。 この研究は、人間の学習プロセスに似た、ミステイクからの学習(LeMa)を提案する。
論文 参考訳(メタデータ) (Tue, 31 Oct 2023 17:52:22 GMT)
- GPT-4を用いて「 (1) identify the mistake step, (2) explain the reason for the mistake, (3) correct the mistake and generate the final answer」という手順でデータセットを作成、fine tuningによりCoTデータに比べて性能が大幅に向上したとの報告。誤りの方が学習効率が良い(新たな情報が多い)のはそうなんだろうと思う。
- リポジトリはGitHub – microsoft/CodeT ?
- Data-Centric Financial Large Language Models [27.5]
大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。 我々は、LLMが金融業務をよりうまく扱えるようにするために、データ中心のアプローチを提案する。
論文 参考訳(メタデータ) (Sat, 7 Oct 2023 04:53:31 GMT)
- 金融分野向けにLLMを活用するため、データの前処理を工夫・拡張(AAR: abductive augmentation reasoning )など行ったうえで既成のLLMを使う方針及びfine tuningに使う方針などを試している。単純なLangChain+LLMより有効とのこと。
- 「データ中心な金融分野向けLLM」という題名であるが分野に関わらずこの手のオフラインでの準備は非常に重要という印象。とりあえずDBとつなげばよいという方針はあまりうまくいかない。
- Towards Possibilities & Impossibilities of AI-generated Text Detection: A Survey [97.3]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。 これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。 これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (Mon, 23 Oct 2023 18:11:32 GMT)
- AIが作ったテキストを検出できるか否かに関するサーベイ。DetectionとAttackの2方向から網羅的に調査しているので研究のアプローチが分かりやすい一方で著者が主張するスコアを並べるような調査にはなっていない。
- 「Specifically, Liang et al (2023) observe perplexitybased detectors having a high misclassification rate for non-native authored TOEFL essays despite being nearly perfectly accurate for college essays authored by native speakers.」のような話はとても重要。fugumt.comで全文訳提供をやめた理由の一つが某剽窃チェッカーの誤判定に関する問い合わせが多く来たことであり、この手のツールを社会実装する場合はその責任を自覚してほしいと思う。最終判断はユーザに任せているという内容の(たいして読まれない)EULAで逃げないでほしい。