一作+通讯，Science！--粉丝服务平台-粉丝头条-fensifuwu.com

一作+通讯，Science！

日期： 2023-05-03 18:03:38 来源：研之成理收集编辑：CUBE

▲第一作者：Sunil Pai

通讯作者：Sunil Pai

通讯单位：美国斯坦福大学

DOI：

https://www.science.org/doi/10.1126/science.ade8450

研究背景

神经网络（NNs）是十分普遍的计算模型，其受到生物大脑结构的启发。这种模型在输入数据上进行训练，以实现复杂的信号处理或 “推理”，为各种现代技术提供动力，如语言翻译、自动驾驶汽车等。近期估算发现，完成这些训练和推理所需的能量每5到6个月就要翻一番，因此需要为 NN 实现节能硬件。

研究问题

集成的光子神经网络为高能效、高通量的机器学习提供了一个有前景的平台，具有广泛的科学和商业应用。本研究通过实验训练了一个带有可编程移相器(programmable phase shifters)和光功率监测(ptical power monitoring)的三层四口硅光子神经网络，使用 “原位反向传播”来解决分类任务。本研究通过干扰前向和反向传播的光来测量移相器电压的反向传播梯度，并模拟了对MNIST图像识别给定错误进行训练的64端口光子神经网络的原位反向传播。所有实验的表现都与数字模拟相当（>94%的测试精度），能量扩展分析表明了这是一条通往可扩展机器学习的路线。

▲图1|原位反向传播的概念

要点：

1.本研究通过交替使用模拟可编程单元MVM操作的序列来建立一个混合PNN。PNN的参数是由可编程的相移η→∈[0,2π)^D，其中D代表PNN相移器的数量。在数学上，以下的“推理”函数序列转换了输入x=x⁽¹⁾，并且以“前馈”方式进行到输出zˆ:=x^(L+1)（图1A至D）。

2.本研究的核心成果（图1E）是使用定制的光学设备和硅光子芯片在光子三角网MVM芯片上实验实现的反向传播。本研究的反向传播架构与典型的PNN光子网格在三个方面有所不同：

1）本研究启用了 “双向光传播”，能够发送和测量通过电路从左到右或从右到左传播的光（如图1E所示）。

2）本研究实施了 “全局监测”，利用3%的光栅抽头（如图1E和图2A和B的插图所示）测量通过电路中任何相移η传播的光功率p_η。在本研究的概念验证设置中，使用安装在自动平台上的红外（IR）相机对整个芯片的这些抽头进行成像。

3) 本研究使用发生器和分析器子电路上的自配置可编程矩阵单元层实现了振幅和相位检测（图1E和2B），利用对称性，它可用于发送和测量通过网孔向前或向后传播的光。

▲图2|模拟梯度实验和模拟

要点：

1.每个MZI都由热光学移相器进行参数化，该移相器利用来自独立控制驱动板的电流对波导进行局部加热（图2A和B）。移相器被放置在所有MZI的输入（ϕ，电压V _ϕ）和内部（θ，电压V_θ）臂上，以控制红外C波段（1530至1565纳米）光的传播模式，从而实现任意的单元矩阵乘法。

2.本研究将一个任意的4×4单元矩阵乘法嵌入到一个6×6的三角形MZIs网络中。这种配置在4×4 “矩阵单元”的两端加入了两个1×5的光子网，能够发送任何输入矢量x并测量公式1和2的任何输出矢量y。这些“发生器”和 “分析器”的光学输入/输出（I/O）电路（图1E和2B）需要校准的电压映射θ（V_θ）, ϕ（V_ϕ）来控制光学相位。

3.本研究在实验中通过对光功率测量的数字处理来估计矩阵优化问题的模拟梯度测量的准确性（图2D）。本研究将一连串的输入编程到我们芯片的发生器单元中，并记录下在p_η,+和p_η,-之间振荡的方波响应，然后分别减去这两个测量值，从而找到相对于η的梯度。

▲图3|原位反向传播实验

要点：

1.为了测试整体的片上训练，本研究评估了原位反向传播的准确性，使用Python软件的数字减法协议训练多层PNN（图3A）。通过训练芯片来实现L=3层，N=4个端口，以根据数据点的空间位置，将使用Scikit-Learn（33）在2D空间中生成的标记噪声合成数据分配给0或1标签（图1A；图3E和H）。本研究进行了80%：20%的训练-测试分割（200个训练点，50个测试点），只对训练点进行训练，以避免过度拟合。

2.在数据集的训练过程中，在准确梯度计算所需的所有波导段中，光栅抽头到相机监视器测量的预测和测量功率显示出极好的一致性（图3B）。图3C中的训练曲线表明，随机梯度下降对预测和测量的曲线来说都是一个高噪音的训练过程，这是因为关于边界的合成数据集有噪音，而且本研究选择的是单例训练，而不是批量训练。

3.这些大的波动在模拟和测量的训练曲线之间显得大致相关（图3E），本研究成功地达到了93%的训练和96%的测试模型准确率（图3D）。然后对卫星数据集进行了训练，应用同样的程序，达到了87%的训练和94%的测试模型准确率（图3F，绿色对红色）。当使用预测的相位和测量的振幅时，本研究将梯度误差平均减少了大约一个数量级，从而获得了95%的训练和98%的测试模型准确性，这与数字训练一致（图3F至H）。这一改进强调了准确的相位测量对提高训练效率的重要性。通过使用集成雪崩光电二极管、无创光监测或基于移相器的功率监测来提高信噪比，可以进一步减少监测误差。

▲图4|原位反向传播模拟

要点：

1.鉴于本研究对N=4个PNN的实验结果显示了硬件错误影响训练的证据，本研究在MNIST手写数字数据集上评估了N=64的PNN在存在错误的情况下的可扩展性，以更好地了解规模上的相对贡献。本研究在Simphox中使用JAX和Haiku实现了一个PNN模拟框架，以模拟给定系统和噪声误差的网格搜索的原位反向传播训练。在使用M=600的100个小时后，在理想的情况下，实现了大约97.2%的最大测试精度，平均精度大约为95%（图4B和C）。由光电探测器噪声和相移量化及校准误差引起的相位和振幅误差对误差收敛的影响最大。总的来说，本研究的MNIST模拟结果表明，原位反向传播在规模上对噪声和硬件错误是相对稳健的，而这些在目前的模拟计算系统中很难完全消除。

2.本研究还考虑了优化的模拟梯度更新方案的能量和延迟与精度的权衡，假设目前最先进的电子元件与有源光子元件共融。总的来说，本研究的模拟结果（图4）和能量计算轮廓表明MNIST训练的性能下降最小，同时反向传播的能效提高了三倍。

结语

本研究的结果最终对连接光子学和机器学习领域有广泛的影响。反向传播是机器学习中最有效和最广泛使用的神经网络训练算法，而本研究将这种流行的技术作为物理实现的演示展示了混合PNN的有前途的能力，以减少碳足迹并应对AI计算的指数级增长成本。

原文链接：

https://www.science.org/doi/10.1126/science.ade8450

相

关

推

荐

1. 仪器表征基础知识汇总

2. SCI论文写作专题汇总

3. Origin/3D绘图等科学可视化汇总