为什么LLM做不好UI设计

前言

最近尝试用 LLM(主要是 Codex 和 Cursor)做软件的UI设计,却发现这些模型做出来的UI极其糟糕,只能保证基本的功能存在(甚至连排版都很差),我一开始以为是因为这些编程模型没有进行美学训练,后来却发现这只是表面原因。

直接原因

像 Codex 这样的纯代码模型,训练时并没有"美学数据",只有文本和代码。这就导致了它们只懂得代码语法,不懂视觉审美,或者说对功能性的追求远大于对美的追求。当你用它来做一个UI,它会生成训练数据中出现频率最高的代码(甚至可能是基于过时的公开代码)。显然,出现的最多的UI代码,并不是最好看的UI代码。

本质原因

但没有给模型投喂美学数据并不是根本原因,根本原因是:这些是文本模型,它们只能处理文本序列,即使提供了图片数据,它们也无法直接理解和处理。

可能的解决办法

既然是因为代码模型的模态限制导致它不能理解美,那么使用多模态模型(能同时理解文本和图像)或许能更容易开发出好看的UI。