I think we have barely scratched the surface of post-trained inference/generative model inference efficiency.
A uniquely efficient hardware stack, for either training or inference, would be a great moat in an industry that seems to offer few moats.
I keep waiting to here of more adoption of Cerebras Systems' wafer-scale chips. They may be held back by not offering the full hardware stack, i.e. their own data centers optimized around wafer-scale compute units. (They do partner with AWS, as a third party provider, in competition with AWS own silicon.)
I hope we never find good moats. I hope that progress in AI is never bottlenecked on technology that centralizes control over the ecosystem to one or a handful of vendors. I want to be able to run the models myself and train them myself. I don't want to be beholden to one company because they managed to hire up all the people building fancy optical chips and kept the research for themselves.
Re: cerebras, they filed a S1 [1] last year when attempting to go public. It showed something like a $60M+ loss for the first 6 months of 2024. The IPO didn’t happen because the CEO’s past included some financial missteps and the banks didn’t want to deal with this. At the time the majority of their revenue came from a single source in Abu Dhabi, as well. They did end up benefiting by the slew of open source model releases which enabled them to become inference providers via APIs rather than needing to provide the full stack for training.
Google is already there with TPUs. The reason they can add AI to every single google search is not just that Google has near-infinite cash, but also that inference costs far less for Google than anyone else.
Reading the specs on the new TPU designs and how it incorporates optical switching fabric and other DC-level technology to even function, I think the moat is already there.
The raw materials: diffractive optical elements and single mode fibers from a materials perspective are all quite easy to manufacture. The primarily limitation with miniaturization is the single-mode fibers, which are limited by the optical wavelength you are using and the index of the fiber. For a conventional silica optical fiber, this is probably around ~100 nm diameter at a minimum. Newer materials can definitely change this 2-3x, but I'm not aware of anything more fundamental.
So in general this would be something that you would potentially be able to see in cars, but unlikely consumer electronics or handhelds without a modification in the operational principle (eg time-multiplexing to reduce the required number of fibers).
My personal opinion is that competing on low-power and small-scale is a lost cause for photonic computing. In terms of absolute energy efficiency and absolute miniaturization, photonics will never win. But at larger energy scales and larger systems, photonics can reach a regime where higher parallel throughput will dominate.
Not cheap, unless that one specific model is going to be used across tens of millions of devices, with no updates, for the physical lifetime of the device.
I think we have barely scratched the surface of post-trained inference/generative model inference efficiency.
A uniquely efficient hardware stack, for either training or inference, would be a great moat in an industry that seems to offer few moats.
I keep waiting to here of more adoption of Cerebras Systems' wafer-scale chips. They may be held back by not offering the full hardware stack, i.e. their own data centers optimized around wafer-scale compute units. (They do partner with AWS, as a third party provider, in competition with AWS own silicon.)
> would be a great moat
I hope we never find good moats. I hope that progress in AI is never bottlenecked on technology that centralizes control over the ecosystem to one or a handful of vendors. I want to be able to run the models myself and train them myself. I don't want to be beholden to one company because they managed to hire up all the people building fancy optical chips and kept the research for themselves.
Pepper your angus because that's the endgame of all the people playing this game right now
Re: cerebras, they filed a S1 [1] last year when attempting to go public. It showed something like a $60M+ loss for the first 6 months of 2024. The IPO didn’t happen because the CEO’s past included some financial missteps and the banks didn’t want to deal with this. At the time the majority of their revenue came from a single source in Abu Dhabi, as well. They did end up benefiting by the slew of open source model releases which enabled them to become inference providers via APIs rather than needing to provide the full stack for training.
[1] https://www.sec.gov/Archives/edgar/data/2021728/000162828024...
Google is already there with TPUs. The reason they can add AI to every single google search is not just that Google has near-infinite cash, but also that inference costs far less for Google than anyone else.
Reading the specs on the new TPU designs and how it incorporates optical switching fabric and other DC-level technology to even function, I think the moat is already there.
sample output here - https://www.science.org/action/downloadSupplement?doi=10.112...
This is at the very beginning of begin feasible. I do not know anything about photonics, maybe someone who does can comment on scalability?
The raw materials: diffractive optical elements and single mode fibers from a materials perspective are all quite easy to manufacture. The primarily limitation with miniaturization is the single-mode fibers, which are limited by the optical wavelength you are using and the index of the fiber. For a conventional silica optical fiber, this is probably around ~100 nm diameter at a minimum. Newer materials can definitely change this 2-3x, but I'm not aware of anything more fundamental.
So in general this would be something that you would potentially be able to see in cars, but unlikely consumer electronics or handhelds without a modification in the operational principle (eg time-multiplexing to reduce the required number of fibers).
My personal opinion is that competing on low-power and small-scale is a lost cause for photonic computing. In terms of absolute energy efficiency and absolute miniaturization, photonics will never win. But at larger energy scales and larger systems, photonics can reach a regime where higher parallel throughput will dominate.
Question:
Can a model's weights be hard-coded into a physical chip for cheap fast local AI?
Not cheap, unless that one specific model is going to be used across tens of millions of devices, with no updates, for the physical lifetime of the device.
Can't find an arxiv or anything to download without paying.
I found this in some Chinese app/website (not sure if it's the same thing):
打开CSDN APP Copyright © 1999-2020, CSDN.NET, All Rights Reserved
打开APP
LightGen: All-optical synthesis chip for large-scale intelligent semantic vision generation 原创
2025-12-30 20:54:42 阅读量 539
收藏 20
10赞
Xy-unu
码龄6年
关注 论文基本信息 (Basic Information) 标题 (Title) All-optical synthesis chip for large-scale intelligent semantic vision generation Adress https://www.science.org/doi/abs/10.1126/science.adv7434 Journal/Time Science 2025 Author 上海交通大学(电子信息与电气工程学院)和 清华大学(自动化系/电子工程系) 1. 核心思想 (Core Idea) 全光计算芯片在生成式人工智能领域应用的探索。
解决的是生成式 AI 算力与能耗的矛盾,设计并制造了一款名为 LightGen 的全光计算芯片,用于大规模的智能语义视觉生成 。
2. 研究背景与动机 (Background and Motivation) 传统的全光计算芯片主要局限于小规模、分类任务,光电级联或复用又会严重削弱光计算速度。
光计算的优势:速度快、功耗低。 劣势:
规模太小: 生成任务需要百万级神经元,以前的光芯片(如 MZI、微环)通常只有几十到几百个 。 维度固定:模拟光信号在传播中很难改变维度(Dimension Variation),而生成模型通常需要“压缩特征再解压”的过程(即 VAE 架构) 训练依赖真值: 以前的光芯片训练依赖输出和标准答案的一一对应,但生成式 AI 是要创造“不存在的数据”,没有标准答案 。 3. 方法论 (Methodology) 输入(Input): 高分辨率的图像或语义信息(例如 512×512512 \times 512512×512 像素的图像),不需要像以前的光芯片那样切分成小块。 输出(Output): 经过语义生成或操控后的图像甚至视频。具体任务包括语义生成(凭空画图)、风格迁移(如把照片变成梵高画风)、去噪(修复模糊图像)以及 3D 视觉生成(如 NeRF)。 实现形式:物理上的光子芯片,集成了数百万个光神经元,通过光纤阵列连接 。
3.1 核心创新 继承规模增大(3D Packaging):采用了 3D 封装技术,在仅 136.5 mm2136.5\ mm^2136.5 mm 2 的空间内集成了超过 200 万个光神经元。这比之前的光芯片规模提高了数个数量级,使其能够处理 512×512512 \times 512512×512 的高分辨率图像。 全光维度变换(Optical Latent Space, OLS):利用单模光纤的物理特性,全光地实现了维度压缩和转换 。 非监督训练算法(BOGT):提出了基于贝叶斯的光生成模型训练算法(BOGT)。训练它学习数据的概率分布 Q(Z∣X)Q(Z|X)Q(Z∣X),使其接近先验分布 P(Z)P(Z)P(Z) 。 在这里插入图片描述 图 1B,以前的 MZI 或微环芯片(Microring)结构简单,神经元少。图 1D,LightGen 是密集的衍射层堆叠,中间通过 OLS(光纤束)连接 。图 1E (OLS 原理),物理层面的维度压缩 。
在这里插入图片描述 把光信号的数据提取出来做可视化(t-SNE)。
3.1 核心流程: 空间光调制器 (Spatial Light Modulator, SLM),数字信号到模拟信号。数字端接收数字图片,物理端把一束平行的、均匀的激光打在 SLM 上。SLM 上每一个像素点的液晶单元会根据图像的像素数值,改变光线的振幅(亮度)或相位(延迟)。从而得到一束携带了图像信息的光场 光编码器 (Encoder): 光线穿过集成的衍射超表面,提取高维图像特征 。类似cv 的编码器,都是提取特征。 光学潜空间 (OLS):光信号通过单模光纤阵列,利用物理特性完成维度的“压缩”和“采样”,这是生成的关键。图 1E 和图 2。一般在电子计算机里,我们需要把高维图像变成一个低维的向量(Latent Vector),然后再把这个向量还原成图像。但在光路里,光原本是四散传播的,维度无限大。我们需要通过物理机制降维。 光生成器 (Generator):从潜空间中读取特征,再次通过衍射层,还原出高分辨率的语义图像 。类似解码器,接收来自 OLS 的低维特征信号(也就是那些经过筛选的光斑),再次通过多层衍射超表面,将这些特征“还原”并“放大”成高分辨率的语义图像 。它可以生成之前不存在的图像,或者根据在 OLS 中修改的数值,生成改变了风格或视角的图像。 3D 封装 (3D Packaging) 把这一整套系统(编码器、光纤阵列、生成器)堆叠封装,有超过 200 万个光神经元 。 3.2. OLS 光学潜空间 使用了一个*单模光纤阵列(Single-mode Fiber Array)*来连接编码器和生成器 。 过滤机制: 自由空间的光场(Free-space light field)包含无数种模式(Modes)。但是,单模光纤只允许基模(Fundamental Mode, LP01LP_{01}LP 01
) 通过,其他模式被过滤。从而达到了“高维”到“低维”的采样和转换。
光通过光纤阵列后,会在另一端输出。光斑即“特征”。用显微镜看光纤的输出端(如图 1H 和图 2B 所示)会看到一组高斯光斑阵列 (Gaussian speckle array) 。每一个光斑的振幅和相位,就代表了图像的一个*“潜在特征” (Latent Feature)* 。
耦合效率公式 (Coupling Efficiency): 光能否进入光纤,取决于输入光场 EinE_{in}E in
fiber 重叠积分公式 : η=∣∬Ein(x,y)Efiber∗(x,y)dxdy∣2\eta = |\iint E_{in}(x,y)E_{fiber}^(x,y)dxdy|^2 η=∣∬E in(x,y)E fiber ∗
(x,y)dxdy∣ 2
这个公式证明了,只有符合特定空间分布的光(即特征明显的基模)才能通过,杂乱的高阶光被物理积分掉了。这就是物理层面的*“非线性激活”和“降维”*。 最终选了 10×1010 \times 1010×10 (100维) 的光纤阵列。图S11展示了关于维度选择的消融实验。
引入波动 (Fluctuation) 光耦合进光纤时的复杂场分布极其敏感,为生成模型提供了必要的波动。为了生成一张新的图片,系统内部必须有一定的“随机性”或“概率分布”。在电子计算机里(如 VAE),是用数学公式(高斯采样)来模拟这种随机性。在 LightGen 里,光纤耦合的过程本身就提供了这种波动。 流形学习 (Manifold Learning) 图 2D, 2E)证明在这个光潜空间里,具有相似语义的图片(比如白背景的狗、户外的狗)会自动聚在一起 。说明光信号理解了语义而非像素堆砌。 3.3. 训练算法 (BOGT) 对生成式AI, 没有标准答案,物理也是不可导的。 提出了一种基于贝叶斯的训练算法 Bayes-based algorithm for Optical Generative model Training (BOGT) 。 学习概率分布,而非对应关系。 计算特征分布 Q(Z∣X)Q(Z|X)Q(Z∣X),并用 KL 散度 (Kullback-Leibler divergence) 来约束。强制要求光经过 OLS 出来的特征分布,必须接近我们要的一个标准分布
损失函数 LLL 由三部分组成 : L=αlKLD+βlmse+γlopL = \alpha l_{KLD} + \beta l_{mse} + \gamma l_{op} L=αl KLD
+βl mse
+γl op
lKLDl_{KLD}l KLD
lmsel_{mse}l mse lopl_{op}l op 3.4. 训练策略 建模: 在电脑上建立了一个 LightGen 的精确物理模型(模拟光如何衍射、如何耦合进光纤)。训练: 用 BOGT 算法在这个数字模型上跑,不断调整虚拟衍射层的相位参数。
制造: 一旦电脑上的模型学会了生成高质量图像,我们就把这组最优的参数“冻结”,通过光刻技术一次性刻蚀到真实的芯片上。
通过“数字训练,物理推理”的方式,规避光芯片难以实时更新参数的弱点。
4. 实验结果 (Experimental Results) 生成任务展示:图 3A (生成),图 3C (去噪),图 3E (风格迁移)。
图 3A 和 3B。高分辨率直出,LightGen 最直观的能力就是生成了 512×512512 \times 512512×512 像素 的动物图像。以前的光计算受限于输入输出端口,通常只能处理很小的图,或者要把大图切成 7×77 \times 77×7 甚至更小的碎片(Patches)去分别处理,那样生成的图像会有明显的拼接缝隙 。LightGen 用了 3D 封装,能直接生成整张大图,没有拼接缝。从放大细节中清晰地看到猫狗的毛发纹理、眼睛里的反光 。这说明光信号在衍射过程中不仅保留了轮廓,还还原了高频细节。额外利用电子神经网络(CNN)去识别这些生成图,分类准确率和真实的动物数据集(AFHQ)几乎一样高 ,说明生成的特征计算机可信。
图 3C, 3D 给图像加上了严重的噪声,LightGen 利用单模光纤过滤杂波的特性,物理上去噪,还原出了清晰的连笔字 。图像中的噪点(Noise)通常表现为高频杂波,对应到光场中往往包含大量的高阶模。因为这个特性,通过 OLS 就会只有核心的语义信息(基模)传了过去。生成器接收到的是干净的信号,自然就还原出了清晰图像 。
图 3E, 3F, 3G:输入一张苹果的简笔画,可以让它变成“梵高风”或“金属风”。对比了“分块处理(Patched)”的方法,分块处理的方法导致笔画断裂,而 LightGen 处理的图像线条流畅,结构完整 。设计了一个通用的编码器 (Encoder),用来提取内容特征,设计了多个不同的生成器 (Generators),每一个生成器对应一种画风。可以控制光路,让携带图像特征的光信号进入不同的物理区域(不同的衍射通道),从而经过不同的“风格化处理” 。有点像现在的 MoE (混合专家模型) 或者 Adapter 模式。Backbone 不动,根据任务需求(Prompt),把数据路由到不同的 Head 或 Adapter 去处理。 在这里插入图片描述 图 4E (语义操控) 用 KL 散度约束了分布,所以在潜空间里,稍微改变一点点数值,生成的图像也是渐变的。能够进行解耦,算法自己学习分布和对应的光斑。 训练 LightGen 去理解 3D 物体(椅子),可以像 NeRF(神经辐射场)一样,生成同一个椅子在不同角度的样子。4E 中改变椅子的部分特征,在输入端(通过 SLM)微调光信号,改变 OLS里的某几个光斑数值(对应图中的柱状图变化),意味着 LightGen 真的理解了“扶手”这个概念对应的光信号,实现了特征的解耦。
在这里插入图片描述 最后与电子芯片( NVIDIA A100)进行了对比,计算速度、能效比都比电子的快/省电 2 个数量级,体积极小,算力极大。
对于同类任务的变化(如 3D 旋转): 靠输入端的 SLM 动态调节 OLS 里的光斑(Latent Code)。
对于跨任务的变化(如换画风): 靠物理上的光路切换,复用 Encoder,切换不同的 Decoder 模块。
对于去噪: 直接利用了单模光纤的物理截止特性。
5. 结论与讨论 (Conclusion & Discussion) LightGen 光学芯片。目前 AI 需要的算力时间都很大,光子计算有能力承担,之前的光芯片只能做简单的选择题,通过 LightGen 将芯片堆叠,有百万级别的神经元,能处理高分辨率大图。利用光纤的物理特性,能够压缩信息和提取特征。无需传统的监督计算而是学习概率分布去理解语义特征。
6. 主要贡献总结 (Summary of Key Contributions) 3D 封装与集成规模。使用了 3D 封装技术,在136.5 mm2mm^2mm 2 塞进了超过 200 万个神经元 。 光学潜空间 OLS,由于光的特性很难把一张大图的几百万个像素压缩成几个关键的“概念”,设计了一种基于单模光纤阵列的结构,过滤信号,提取特征。 速度快,能量消耗少。 7. 补充材料 在这里插入图片描述光路搭建 (The Setup): 光源: 用的是 532 nm(绿色) 的单模激光器 。 输入端:空间光调制器 (SLM)。用它来把数字图像(比如猫的照片)转换成光的振幅分布,打入芯片 。 接收端: 输出的光信号直接被一个 sCMOS 相机 接收 。
芯片微纳制造 (Fabrication): LightGen 的核心——衍射超表面,是用 JGS1 石英玻璃 (SiO2SiO_2SiO 2
) 做的。它的热膨胀系数极低 (5.5×10−75.5 \times 10^{-7}5.5×10 −7 ),即使温度变化 100∘C100^{\circ}C100 ∘ C,芯片变形也只有 0.006%,保证了光路极其稳定。采用了 8 阶光刻工艺 (8-level lithography)。每一个光神经元(Pixel)的大小是 3μm×3μm3 \mu m \times 3 \mu m3μm×3μm。把光的相位变化(0 到 2π2\pi2π)切分成 8 个台阶高度,每个台阶高度差 150 nm。
工程领域最关心的问题:该芯片是只有在完美模拟中能跑,还是真的造出来也能跑?
量化效应: 理论上的相位是连续变化的,但制造时只能切成 8 个台阶。图 S18 (Fig. S18) 展示了对比:虽然相位的微观结构变了(S18B 和 C),但最终生成的图像(图 S18D)几乎没有肉眼可见的区别 。这证明设计对制造精度有很好的容忍度。 对准误差:图 S19 (Fig. S19) 做了一个极端的测试。故意把衍射层移歪了 10%、30% 甚至 50% 个像素。虽然生成质量(PSNR)下降了,但通过重新训练 (Retrain) 后面的层,性能可以几乎完全恢复(从 13.80 dB 恢复到 16.05 dB)。 关于算力 (TOPS) = 操作数 ÷ 时间 的计算。
100倍速+100倍能效!中国LightGen全光AI芯片问世,性能碾压顶级NVIDIA芯片... 3D 结构突破集成极限:传统 2D 硅基芯片的晶体管集成密度已接近物理极限,而 LightGen 的 3D 堆叠结构可将超 200 万光子神经元分层堆叠,在相同空间内实现 100 倍算力密度提升,解决了 “高算力与小体积” 的矛盾; 光子神经元模拟人脑:人脑通过大量神经细胞同步交互实现信息处理,LightGen 的光子神经元正是模仿这一模 继续访问 深度解析:LightGen全光芯片的技术突破与开发者落地挑战 LightGen的输入输出模块采用全光设计:输入端集成光栅耦合器(耦合效率≥85%),将外部光信号耦合至片上 waveguide;输出端通过阵列波导光栅(AWG)实现多波长信号分波,再由光电探测器阵列(响应速度≥1GHz)完成光信号到电信号的最终转换(仅输出端转换,避免中间转换损耗)。 硬件层面的限制需开发者关注:当前输入模块的光信号... 继续访问 Bang-Bang-All-Digital-PLL-for-Frequency-Synthesis. ### Bang-Bang All-Digital PLL for Frequency Synthesis #### 概述 相位锁定环(Phase-Locked Loop,简称PLL)是任何需要时钟信号的电子系统中的关键组成部分,在广泛的领域如高速串行I/O的时钟和数据恢复电路、... 最新发布 100倍速+100倍能效!中国LightGen全光AI芯片问世,性能碾压顶级NVIDIA芯片,开启可持续AI新纪元 上海交通大学与清华大学科研团队联合研发出全光 AI 芯片 LightGen,以光为信息载体,搭载超 200 万光子神经元,采用 3D 堆叠结构,在生成式 AI 任务中实现比 NVIDIA 顶级芯片快 100 倍、能效高 100 倍的突破。该芯片可一次性处理高清图像 / 视频等复杂任务,避免传统光芯片 “分片处理” 导致的质量问题,测试表现媲美甚至优于 Stable Diffusion 等顶级 AI 系统。目前 LightGen 仍处于原型阶段,下一步将推进规模化设计以适配更大模型,为可持续 AI 发展提供全 继续访问
LightGen 使用教程 LightGen 使用教程 1. 项目介绍 LightGen 是一个基于 PyTorch 的图像生成预训练管道,它通过知识蒸馏和直接偏好优化实现了高效的文本到图像生成。该项目旨在提供一个高效的预训练流程,以加速文本到图像的生成过程,并提高生成图像的质量。 2. 项目快速启动 继续访问 8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源 LightGen相较于现有的生成模型,尽管参数量更小、预训练数据规模更精简,却在geneval图像生成任务的基准评测中甚至超出了部分最先进SOTA模型。 此外,LightGen在效率与性能之间实现了良好的平衡,成功地将传统上需要数千GPU days的预训练过程缩短至仅88个GPU days,即可完成高质量图像生成模型的训练。 继续访问 LightGen:高效图像生成技术的先锋 LightGen:高效图像生成技术的先锋 项目核心功能/场景 LightGen:通过知识蒸馏和直接偏好优化实现高效图像生成 项目介绍 LightGen 是一个基于 PyTorch 的开源项目,致力于利用知识蒸馏和直接偏好优化技术,实现高效且高质量的图像生成。该项目旨在为文本到图像生成任务提供一个高效的预训练管道,基于最新的流体(Fluid)和边际适应性推理(MAR)技术。 项目技术分析 Light... 继续访问 深度解析:LightGen全光芯片的技术突破与开发者落地挑战 12月《Science》期刊收录的上海交大陈一彤课题组LightGen全光计算芯片成果,不仅是学术领域的重大突破,更向AI开发者抛出了一个关键命题:后摩尔时代,基于光子架构的算力范式,如何重构大模型推理的技术链路?本文将从硬件架构、算法适配、工程化落地三个核心维度,拆解LightGen的技术创新点,同时剖析开发者在接入光计算生态时需关注的核心问题。 继续访问
I just clicked the big red "Download" button and it downloaded the full PDF from: https://www.science.org/doi/suppl/10.1126/science.adv7434/su...
okay but that's the supplement. I was hoping I was copying the actual paper. maybe not.
https://pastebin.com/UnBNnEgr