- Large language models effectively leverage document-level context for literary translation, but critical errors persist [32.5]
大規模言語モデル(LLM)は、幅広い文レベルの翻訳データセット上での最先端技術と競合する。 我々は,Gpt-3.5 (text-davinci-003) LLM) を用いて文節全体を翻訳し,高品質な翻訳を行うという厳密な評価を通して示す。
論文 参考訳(メタデータ) (Thu, 6 Apr 2023 17:27:45 GMT) - GPT-3.5を用いて文レベル、段落レベルの翻訳を検証した論文。18言語ペア(日本語含む)と広い検証で人間による評価が行われていることも特徴的。(一方で有名な作品を利用するのはリークの危険が…という気もしている。)
- リポジトリはGitHub – marzenakrp/LiteraryTranslation
Your Diffusion Model is Secretly a Zero-Shot Classifier
- Your Diffusion Model is Secretly a Zero-Shot Classifier [83.3]
大規模なテキスト・画像拡散モデルからの密度推定は、追加の訓練をすることなくゼロショット分類を行うことができることを示す。 分類への我々の生成的アプローチは、様々なベンチマークにおいて強力な結果を得ることができ、拡散モデルから知識を抽出する代替手法よりも優れている。
論文 参考訳(メタデータ) (Tue, 28 Mar 2023 17:59:56 GMT) - Diffusion Modelを分類器として使えるという報告。結果には全く違和感はないが、Synthetic SD Data(Diffusion Modelからの合成データを用いるアプローチ)をはるかに超える性能を出しているのはすごい。
- リポジトリはDiffusion Classifier (diffusion-classifier.github.io)
大規模言語モデルのサーベイ
- A Survey of Large Language Models [81.1]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。 近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。 パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (Fri, 31 Mar 2023 17:28:46 GMT) - 大規模言語モデルのサーベイ
- 有名なモデルの開発時期や(公開されている範囲での)データ、規模、計算リソースなどがまとまっているのが非常にありがたい。数多くのモデルが作られていることと近年のLLMのアーキテクチャは概ね同じであることが分かる。
- リポジトリはGitHub – RUCAIBox/LLMSurvey: A collection of papers and resources related to Large Language Models. 、図がとても良い
MGTBench: Machine-Generated Textの検出ベンチマーク
- MGTBench: Benchmarking Machine-Generated Text Detection [27.7]
大規模言語モデル(LLM)は、人間によって書かれたテキストと区別が難しいような、人間のような言語を生成することができる。 MGTに対する既存の検出方法は、異なるモデルアーキテクチャ、データセット、実験的な設定で評価される。 我々はMGTBenchというMGT検出のための最初のベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (Sun, 26 Mar 2023 21:12:36 GMT) - 機械で生成されたテキストを検出可能かのベンチマーク。GitHub – Hello-SimpleAI/chatgpt-comparison-detection: Human ChatGPT Comparison Corpus (HC3), Detectors, and more! 🔥が好成績とのこと。一方で「We find that, with only small perturbations on the MGTs, ChatGPT Detector can be easily bypassed」という記載は気になる。
- リポジトリはGitHub – xinleihe/MGTBench
Segment Anything
- Segment Anything [108.2]
私たちはこれまでで最大のセグメンテーションデータセットを構築し、1100万ライセンスのマスクを10億枚以上使用し、画像のプライバシーを尊重しています。 このモデルは、高速に撮影できるように設計および訓練されており、ゼロショットを新しい画像配信やタスクに転送することができる。 多数のタスクでその能力を評価した結果、ゼロショット性能は印象的であることが判明した。
論文 参考訳(メタデータ) (Wed, 5 Apr 2023 17:59:46 GMT) - 強力なセグメンテーションモデルの提案。ゼロショットでテキストに対応したセグメンテーションも可能。イメージエンコーダ、プロンプトエンコーダ、マスクデコーダから構成されTransformerベース。
- プログラムサイトはSegment Anything | Meta AI (segment-anything.com)、データセットも公開されているSA-1B Dataset (facebook.com)。
週刊GPT
ChatGPT、GPT-4関係の記事がずっと多い。凄い盛り上がり。
先週に引き続きオープンな取り組みも続けられており期待大。
- Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data [55.1]
高品質なマルチターンチャットコーパスを自動生成するパイプラインを提案する。 我々は,オープンソースの大規模言語モデルであるLLaMAを強化するために,パラメータ効率のチューニングを用いる。 得られたモデルはBaizeと呼ばれ、マルチターン対話において優れた性能を示す。
論文 参考訳(メタデータ) (Mon, 3 Apr 2023 17:59:09 GMT) - LLaMAベースのオープンなモデル。コーパスをChatGPT(gpt-3.5-turbo)で作っているのが特徴的。おそらくこのような作成過程なので「Commercial use is strictly prohibited.」ただ、ベースとなるLLMさえあればChatGPTクローンの作成は可能なのではないかと思う内容。(ベースが作れないという話あるけど…)
- リポジトリはGitHub – project-baize/baize-chatbot: Let ChatGPT teach your own chatbot in hours with a single GPU!
- Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling [19.2]
Pythiaは16の大規模言語モデル(LLM)からなるスイートで、すべて同じ順序で表示される公開データに基づいてトレーニングされている。 トレーニングデータローダをダウンロードして再構築するツールとともに,16モデル毎に154のチェックポイントを公開しています。
論文 参考訳(メタデータ) (Mon, 3 Apr 2023 20:58:15 GMT) - オープンなLLM、最大12Bパラメータのモデルを構築。12B構築時の計算リソースは72,300 GPU hours、A100 (40GB)。p4d.24xlarge(8 GPU hour)が32.77 USD/hourなので、4200万円。LLaMA 7Bと比較しても計算リソースが抑えめ。
- リポジトリはGitHub – EleutherAI/pythia
医学関連の質問に対応できるかの話
- Exploring the Potential of Large Language models in Traditional Korean Medicine: A Foundation Model Approach to Culturally-Adapted Healthcare [0.0]
大規模言語モデルであるGPT-3.5とGPT-4は、医学的な訓練を欠いているにもかかわらず、優れた医学的知識を示している。 本研究は,TKMにおけるGPT-3.5とGPT-4の能力を評価することを目的とした。
論文 参考訳(メタデータ) (Fri, 31 Mar 2023 05:43:21 GMT) - 韓国の医学的知識の検証。「GPT-3.5 and GPT-4 achieved 42.06% and 57.29% accuracy, respectively, with GPT-4 nearing passing performance.」と高い性能
- Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations [22.3]
本研究は,過去5年間の全国医療ライセンス試験において,大規模言語モデル(LLM)を評価した。 実験の結果, GPT-4はChatGPTおよびGPT-3より優れており, 5年間の試験に合格していることがわかった。 ベンチマークをIgaku QAとしてリリースし、すべてのモデル出力と試験メタデータを公開します。
論文 参考訳(メタデータ) (Fri, 31 Mar 2023 13:04:47 GMT) - こちらは日本の医師国家試験を対象にした検証。GPT-4はChatGPTより優れており試験を通過可能なスコアを達成。
- 使用したデータセット等が公開されている。GitHub – jungokasai/IgakuQA
次にエンジニアリングの試験を対象とした検証。ここでも優れた性能を達成
- Can AI Chatbots Pass the Fundamentals of Engineering (FE) and Principles and Practice of Engineering (PE) Structural Exams? [1.1]
ChatGPT-4 と Bard はそれぞれ FE 試験で 70.9% と 39.2% を獲得し、PE 試験で 46.2% と 41% を獲得した。 現在のChatGPT-4はFE試験に合格する可能性があることは明らかである。
論文 参考訳(メタデータ) (Fri, 31 Mar 2023 15:37:17 GMT)
次に頑健性の話。
- On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective [33.3]
本研究は,ChatGPTの頑健性について,敵対的視点とアウト・オブ・ディストリビューションの観点から評価する。 その結果,ほとんどの対人・OOD分類・翻訳作業において一貫した優位性を示した。 ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文 参考訳(メタデータ) (Wed, 29 Mar 2023 14:21:51 GMT) - 頑健性の検証。LLMが優れるかはかなりタスクに依存する印象。
- (翻訳において優れていると結論しているが、相手を商用システムにしないといけないのでは?と思わなくもない)
上記にも関連するが、翻訳における検証
- Unleashing the Power of ChatGPT for Translation: An Empirical Study [18.7]
ChatGPTは自然言語理解と自然言語生成において驚くべき能力を示した。 私たちは、広範囲の翻訳にいくつかの翻訳プロンプトを採用しています。 私たちの研究は、ChatGPTが翻訳において大きな可能性を秘めているという実証的な証拠を提供する。
論文 参考訳(メタデータ) (Wed, 5 Apr 2023 01:17:59 GMT) - ドメイン情報を入れるなどプロンプトを工夫することにより機械翻訳でも優れた性能を達成とのこと。
- 機械翻訳でのIn-Context Learning(GPT-4 + OpenICL) | ぷるーふおぶこんせぷと (staka.jp)でも検証したが、プロンプトを介して機械翻訳に必要な情報を与えられるというのはGPT-4やChatGPTといったLLMの非常に良い利点であると思う。(当然ながらBLEUへの影響も大きい)
最後に要約に関する検証
- Zero-Shot Cross-Lingual Summarization via Large Language Models [43.8]
言語間要約(CLS)は、異なる対象言語で要約を生成する。 近年のLarge Language Models (LLMs) の出現は、計算言語学コミュニティから広く注目を集めている。 本稿では,異なるパラダイムからゼロショットCLSを実行するために,LSMを誘導するために様々なプロンプトを経験的に使用した。
論文 参考訳(メタデータ) (Thu, 6 Apr 2023 09:27:37 GMT) - LLMを用いたクロスリンガルな要約に関する検証。GPT-3.5,ChatGPT,GPT-4,BLOOMZ,ChatGLM-6B,Vicuna-13B,ChatYuanと非常に多くのモデル&複数のプロンプトのパターンを評価しているのが凄い
- 全てのおいてGPT-4が優れているわけでもなくデータに依存するのが興味深い。一方でオープンソースのモデルの結果があまりよろしくないのは残念。
LLaMA-Adapter
- LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention [53.8]
命令追従モデルにLLaMAを効率よく微調整する方法であるLLaMA-Adapterを提案する。 LLaMA-Adapterは52Kの自己命令型デモを使用して、凍結したLLaMA 7Bモデルに1.2Mの学習可能なパラメータを導入している。 効率的なトレーニングにより、LLaMA-Adapterは、完全に微調整された7Bパラメータを持つAlpacaに匹敵する高品質な応答を生成する。
論文 参考訳(メタデータ) (Tue, 28 Mar 2023 17:59:12 GMT) - その名の通りLLaMAへのAdapter、1.2Mパラメータと極めて少ないパラメータのチューニングのみで完全なfine tuningに相当とのこと
- リポジトリはGitHub – ZrrSkywalker/LLaMA-Adapter: Fine-tuning LLaMA to follow instructions within 1 Hour and 1.2M Parameters
LLMの時代に効率のよい調整はどうあるべきかはとても大事、だがweightを変更可能かは悩ましい時代かもとも思う。GitHub – txsun1997/Black-Box-Tuning: ICML’2022: Black-Box Tuning for Language-Model-as-a-Service & EMNLP’2022: BBTv2: Towards a Gradient-Free Future with Large Language Modelsとかにも注目していたり。
CoLT5
- CoLT5: Faster Long-Range Transformers with Conditional Computation [48.5]
我々は、CoLT5がLongT5よりもはるかに高速なトレーニングと推論でパフォーマンスを実現していることを示す。 CoLT5は、非常に長い入力を効果的に、かつ、トラクタブルに利用でき、64kまでの入力長が強い。
論文 参考訳(メタデータ) (Fri, 17 Mar 2023 03:28:17 GMT) - 最大64kトークンに対応できる手法の提案、SCROLLSベンチマークでSOTA
PosterLayout
- PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout [62.1]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。 本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。 CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (Tue, 28 Mar 2023 12:48:36 GMT) - ポスターのレイアウトを扱うベンチマーク。画像生成が現実的になっている中、センスが問われるこの手のレイアウトは良い問題なのかもしれない。
- リポジトリはGitHub – PKU-ICST-MIPL/PosterLayout-CVPR2023: Official repository for “PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout” (CVPR 2023).
Open-world Story Generation with Structured Knowledge Enhancement: A Comprehensive Survey
- Open-world Story Generation with Structured Knowledge Enhancement: A Comprehensive Survey [25.9]
本稿では,既存の手法が構造的知識をストーリー生成にどのように統合するかについて,体系的な分類法を提案する。 知識に富んだストーリー生成の課題について多次元的な洞察を与える。
論文 参考訳(メタデータ) (Fri, 24 Mar 2023 13:20:05 GMT) - ストーリー生成に関するサーベイ
- LLMでかなりの部分ができるようになってきたのではないか?と思いつつ、歴史を振り返るのはとても大事