SpreadsheetLLM: Encoding Spreadsheets for Large Language Models
SpreadsheetLLM: Encoding Spreadsheets for Large Language Models [44.1] SpreadsheetLLMは、スプレッドシート上の大きな言語モデル(LLM)を解き放つために設計された効率的な符号化手法である。 LLMのスプレッドシートを効果的に圧縮する革新的な符号化フレームワークである SheetCompressor を開発した。 SheetCompressor による微調整 LLM の圧縮率は平均 25 倍であるが、最先端の 78.9% の F1 スコアを達成し、既存のモデルでは 12.3% を上回っている。 論文参考訳(メタデータ) (Fri, 12 Jul 2024 06:34:21 GMT)
一般にLLMで扱いにくいスプレッドシートに対処するためのフレームワークの提案。
「structural-anchor-based extraction, invertedindex translation, data-format-aware aggregation」でMarkdownライクなテキストに変換するアプローチ。さらにはテーブル認識と境界識別を分けるChain of Spreadsheet を提案、ベンチマークでのSOTAを主張
マイクロソフトの論文で「Spreadsheets are characterized by their extensive two-dimensional grids, flexible layouts, and varied formatting options, which pose significant challenges for large language models (LLMs).」と書かれると複雑な気持ちになる。