前言

最近尝试用 LLM（主要是 Codex 和 Cursor）做软件的UI设计，却发现这些模型做出来的UI极其糟糕，只能保证基本的功能存在（甚至连排版都很差），我一开始以为是因为这些编程模型没有进行美学训练，后来却发现这只是表面原因。

直接原因

像 Codex 这样的纯代码模型，训练时并没有"美学数据"，只有文本和代码。这就导致了它们只懂得代码语法，不懂视觉审美，或者说对功能性的追求远大于对美的追求。当你用它来做一个UI，它会生成训练数据中出现频率最高的代码（甚至可能是基于过时的公开代码）。显然，出现的最多的UI代码，并不是最好看的UI代码。

本质原因

但没有给模型投喂美学数据并不是根本原因，根本原因是：这些是文本模型，它们只能处理文本序列，即使提供了图片数据，它们也无法直接理解和处理。

可能的解决办法

既然是因为代码模型的模态限制导致它不能理解美，那么使用多模态模型（能同时理解文本和图像）或许能更容易开发出好看的UI。