DeepSeek

この日、中国のスタートアップが提供するオープンソースのAIモデルがOpenAIのo1相当の性能を大幅な低コストで達成したという見方が広がってNVIDIAの株式は大幅に値を下げる。大規模データセンターへの投資を正当化してきたのは学習量がAIの性能を比例的に引き上げるという経験則だけれど、他のモデルを教師にした知識の蒸留が実用的な成果をあげるのであれば、それを必要とした時間はもう終わったということになる。

一方でシステムそのものの効率化が全体としてはシステムが使われる機会を増やすというジェボンズの法則をひいて、生成AIはますます普及するだろうという言説も出てきているので、この急落は短期的には戻しの局面を見せるに違いない。モデルがどうであれ、それを動かすのは物理的なチップなのである。

Knowledge Distillationによる実用的なモデルの作成以上に、DeepSeekの手法がMixture of Expertsと呼ばれるものだということが興味深い。そもそも人間の脳がさまざまに特化したシステムの組み合わせで成立しているとみれば、進化的な効率はモノリスのモデルよりもMoEの方に軍配を上げるのではないだろうか。そして、その効率化手法を追求させたのが米国によるAIチップ規制であるというのは皮肉な話である。技術の輸出規制が長期的にイノベーションを促進する例は多いのだが、これは最短の例のひとつであろう。

このところZedエディターを使っているのだけれど、直近のアップデートではさっそくDeepSeek APIに対応して、エコシステム全体のスピードもまたゲームの様相をあっという間に変えていくだろう。

Published on: 2025/1/28

Categories: 日々

< 次の記事｜終末時計前の記事｜エピソード3 >