基于稀土Dy离子荧光强度比的温度测试技术

张粟; 庞然; 姜丽宏; 李达; 李成宇; 张洪杰

doi:10.11729/syltlx20210176

基于稀土Dy离子荧光强度比的温度测试技术

中国科学院长春应用化学研究所稀土资源利用国家重点实验室，长春　130022

基金项目: 中国科学院青年创新促进会人才项目（2017272）

详细信息

作者简介:
张粟: （1983—），男，安徽宿州人，博士，研究员。研究方向：稀土光功能材料，发光温度测量技术。通信地址：吉林省长春市朝阳区人民大街5625号中国科学院长春应用化学研究所稀土资源利用国家重点实验室（130022）。E-mail：zhangsu@ciac.ac.cn

通讯作者:
张粟: E-mail：zhangsu@ciac.ac.cn

中图分类号: O616
计量
- 文章访问数: 722
- HTML全文浏览量: 212
- PDF下载量: 85
出版历程
- 收稿日期: 2021-11-03
- 修回日期: 2021-12-30
- 录用日期: 2022-01-29
- 网络出版日期: 2022-09-12
- 刊出日期: 2023-04-24

A temperature measurement technique based on fluorescence intensity ratio of rare earth Dy ion

State Key Laboratory of Rare Earth Resource Utilization, Changchun Institute of Applied Chemistry, Chinese Academy of Sciences, Changchun 130022, China

摘要

摘要: 大面积表面温度测量技术在风洞测温领域中具有重要意义。为满足更高表面温度的测量需求，亟待开展新型测温技术及温度传感材料的研发。基于稀土离子的热耦合能级荧光强度比进行温度测量是一种新型测温技术。本文合成了一种温敏发光材料（YAG:Dy），研究了50～1000 ℃范围内稀土Dy³⁺离子的一对热耦合能级（⁴F_9/2→⁶H_15/2，⁴I_15/2→⁶H_15/2）的跃迁发光强度比与温度的对应关系。基于该材料，本文开展了荧光强度比测温与红外测温仪测温的对比实验，实验结果表明：两者的测量结果有很高的吻合度，证明该温敏发光材料（YAG:Dy）可用于50～1000 ℃范围内的温度测量。
- 稀土Dy³⁺离子 /
- 热耦合能级 /
- 荧光强度比 /
- 测温涂层 /
- 温度分布 /
- 温度测量
Abstract: Large area surface temperature measurement technology is of great significance in the field of wind tunnel temperature measurement. In order to meet the needs of measurement for higher surface temperature, it is urgent to develop new temperature sensing materials and new temperature measurement technology. Temperature measurement based on the fluorescence intensity ratio of the thermal coupling energy levels of rare earth ions is a new temperature measurement technology. In this work, a temperature sensitive luminescent material (YAG:Dy) was synthesized. The corresponding relationship between the temperature and the ratio of emission intensity of the thermal coupling energy levels of rare earth Dy³⁺ ions (⁴F_9/2→⁶H_15/2, ⁴I_15/2→⁶H_15/2) was investigated in the temperature range from 50 to 1000 ℃. Based on this material, a comparative experiment of two temperature measurements that the fluorescence intensity ratio measurement and the infrared thermometer is carried out. It is shown that the measurement results of the two technologies have a high degree of agreement, which proves that the temperature sensitive luminescent material (YAG:Dy) can be used for temperature measurement in the range of 50–1000 ℃.
- rare earth Dy³⁺ ion /
- thermal coupling energy level /
- fluorescence intensity ratio /
- temperature measuring coating /
- temperature distribution /
- temperature measurement

HTML全文

0 引　言

人类大脑理解、分类信息并进行学习的过程一直是人们研究的热点。在人工智能（AI）研究领域，创造出一种能够像人类大脑一样自行学习决策的算法是科学家研究的重要目标。追溯到20世纪80年代末，Sutton^[1]提出的强化学习（RL）算法框架给出了可行性答案。在这个框架中，智能体通过与环境进行互动获得奖励来积累经验、自我学习^[2]。

近年来，深度神经网络的兴起给强化学习提供了强大的新工具^[3]。深度学习与强化学习的结合，称为“深度强化学习（DRL）”，其通过深度神经网络对高维状态空间进行特征提取和函数拟合，消除了经典强化学习的主要障碍。当前，DRL在多个领域都展现了前所未有的强大潜力，不但能够进行机器人控制^[4]和自然语言处理^[5]，还在多种游戏（Atari游戏^[6]、Go^[7]、Dota II^[8]、Starcraft II^[9]、Poker^[10]等）中都达到了高手的水平。与此同时，DRL也被应用到工业中，如韦夫（Wayve）公司通过实验^[11]和仿真^[12]来训练自动驾驶汽车，Google使用DRL来控制其数据中心的散热^[13]。

流动分离作为流动控制中的经典问题，一直是学者们研究的热点。对机翼分离流控制技术的研究主要集中在边界层吹吸气控制方面。吹气控制方式主要有直接吹气（含非定常吹气和微量吹气等）控制和前缘缝翼控制2种。Chng等^[14]对Clark-Y翼型进行吹吸气控制，将吹气控制装置设置在翼型前缘附近，沿流向吹气，将吸气控制装置设置在翼型后缘附近，沿流向吸气；实验结果表明，进行吹吸气控制后，翼型的流动分离被抑制，气动特性明显提升。Coiro等^[15]对机翼表面的分离流动采用非定常吹气控制进行研究，将非定常吹气装置安装在机翼上表面的中间部位，总结了无量纲激励频率和动量系数对非定常吹气控制效果的影响，将实验结果与数值模拟结果对比，证明该吹气控制方式具有良好的控制效果。

近年来，深度强化学习也被应用在流动控制领域。Verma等^[16]使用DRL模拟鱼群在复杂流场中的游动，训练出一个“聪明的游泳者”，能通过调整自身位置和身体变形与迎面而来的涡流动量同步，提高游泳效率。东京大学的Shimomura等^[17]在NACA-0015翼型上采用介质阻挡放电（Dielectric Barrier Discharge，DBD）等离子体激励器对翼型进行了闭环分离控制实验，采用DRL算法对激励器的激励频率进行优化选择，证明在不同迎角下使用DRL算法训练的网络可以选择最优频率。Guéniat等^[18]对圆柱绕流控制进行了尝试，在仿真环境下使用RL算法对流动进行控制，实现了减阻的效果。Pivot等^[19]采用计算仿真方法，模拟低雷诺数（Re=200）二维圆柱绕流流场，通过RL算法控制圆柱的自旋转从而抑制尾迹区的流动，达到减阻目的（减阻率约为17%）。Xu等^[20]在圆柱后方上下布置2个相同的小圆柱，在Re=240时使用DRL算法训练网络，通过控制小圆柱的自旋转来抑制尾流的分离。Rabault与Tang等^[21-22]也采用计算仿真方法模拟了低雷诺数下二维圆柱绕流流场，通过在圆柱上下端点处加装射流孔，对圆柱进行零质量射流控制；仿真结果表明，使用DRL算法训练的网络成功地稳定了卡门涡街，且圆柱受到的阻力也降低了约8%。由此可见，深度强化学习正作为一种可行的控制策略，逐渐与流动控制领域的研究相结合。

本研究的目的是设计一种基于深度强化学习算法的闭环控制系统，该系统可以根据流场中的翼型表面压力系数选择合适的前缘吹气量，抑制大迎角下的流动分离，实现非定常吹气，减小系统的吹气量。实验中，NACA0012翼型以固定的迎角放置于流场中，选择深度强化学习中性能优异的TD3（Twin Delayed Deep Deterministic Policy Gradients）算法^[23]作为控制系统的核心驱动，由压力传感器测得的表面压力实时数据以及智能体自身的动作输出作为神经网络的输入数据，通过迭代实验使智能体自我学习抑制流动分离的最佳控制策略。

1 实验方案

1.1 实验设置

实验在南京航空航天大学（NUAA）非定常空气动力学实验室的1 m非定常低噪声低湍流度风洞中进行。风洞为开口风洞，实验段开口为1.5 m（宽）× 1.0 m（高）。实验模型为二维NACA0012翼型，弦长200 mm，展长400 mm，模型上表面布置了6个测压孔，测压孔均匀分布在机翼中部，相邻孔之间的距离为20 mm，与前缘的距离分别为弦长c的20%、30%、40%、50%、80%、90%，如图1所示。实验风速10 m/s，基于弦长定义的雷诺数为1.36×10⁵，机翼迎角16°。射流激励器采用沿翼型上表面均匀吹气的形式，气体从模型侧边通入，经一级缓冲区和二级缓冲区（设2个缓冲区的目的是保证激励器出口气体速度基本一致），从翼型上表面吹出。激励器的位置如图1所示，与前缘的距离为弦长的10%，射流缝高1 mm，射流出口方向与翼型弦线成30°夹角。射流出口速度由电磁比例阀（PVQ系列）进行无级控制，控制频率为100 Hz，出口速度与电磁比例阀控制信号（即电压信号）正相关，范围为0～22 m/s，如图2所示。机翼表面的压力系数由动态压力传感器（MS4515DO系列）通过测压孔测得，采样频率为100 Hz，准确度为±0.25%。本文通过补偿微压计给出9个标准压力点，使用压力传感器进行了7次重复性测试，绝对误差为±0.2 Pa，如图3所示。

图 1 翼型截面

Fig. 1 Airfoil section view

下载: 全尺寸图片幻灯片

图 2 电压与射流出口速度对应关系

Fig. 2 Correspondence between voltage and jet velocity

下载: 全尺寸图片幻灯片

图 3 传感器重复性测试

Fig. 3 Sensor repeatability test

下载: 全尺寸图片幻灯片

1.2 深度强化学习

强化学习通常被定义为在马尔科夫决策链（MDP）下寻找最优策略从而获得最高累积奖励的问题。马尔科夫决策链可以由1个元组$（S，A，{P}_{{{sa}}}，R）$表示，其中S和A分别表示状态空间和动作空间；P_sa为状态转移分布，表示在状态s下采取动作a后转移到新状态s' 的概率分布；R表示在状态s下采取动作a后获得的奖励。

智能体事先不会被告知任何先验知识，必须自己去发现哪些行为可以获得更高的奖励。图4显示了强化学习的基本框架，在每个离散时间步t中，智能体与环境进行交互，智能体获取环境的当前状态$s（s\in S）$，并根据自身的策略${\text{π}}（{\text{π}}:S\to A）$，在给定的动作范围内输出一个动作$a（a\in A）$，之后智能体会获得一个奖励r和环境的新状态$s'（s'\in S）$。智能体获得的总回报为${R}_{t}={\displaystyle\sum }_{i=t}^{M}{\gamma }^{i-t}r（{s}_{i}，{a}_{i}）$。其中，折扣系数$ \mathrm{\gamma }\in[\mathrm{0，1}） $，表示短期奖励的优先级，当γ=0时表示智能体只关注当前时间步获得的奖励；M表示事件结束时的步数。

图 4 强化学习的基本框架

Fig. 4 The basic framework of reinforcement learning

下载: 全尺寸图片幻灯片

强化学习的目的就是要找出最佳的策略π_ϕ，从而最大化长期回报$J（\phi ）={\mathbb{E}}_{{s}_{i}～{p}_{{\text{π}} }，{a}_{i}～{\text{π}} }\left[{R}_{0}\right]$。其中，$\phi $表示策略π的相关参数，$ {p}_{{\text{π}} } $则是MDP中的状态转移分布。因此，学习的目标是找到一组参数（ϕ*）可以使目标函数J（ϕ）最大化。策略梯度法是通过估计${\nabla }_{\phi }J（\phi ）$，然后执行梯度上升算法找到网格参数θ*。$ {\nabla }_{\phi }J（\phi ） $可以估算为：

$$ {\nabla }_{\phi }J（\phi ）={\mathbb{E}}_{{s}_{i}～{p}_{{\text{π}} }}\left[{\nabla }_{a}{Q}^{{{\text{π}}} }（{s}_{t}，{a}_{t}）{|}_{a={\text{π}} （s）}{\nabla }_{\phi}{{{\text{π}}} }_{\phi }（s）\right] $$

(1)

式中，${Q}^{{\text{π}} }（{s}_{t}，{a}_{t}）$表示从$ {s}_{t} $开始行动、遵循策略π做出动作$ {a}_{t} $后获得的预期回报，一般称之为Q函数。与之相关的还有值函数$ {V}^{{\text{π}} }（{s}_{t}） $，表示从$ {s}_{t} $开始、遵循策略π所能获得的预期回报。Q函数与值函数的相关表达式以及它们之间的关系如下：

$$ \left\{\begin{array}{c}{Q}^{{\text{π}} }（{s}_{t}，{a}_{t}）={\mathbb{E}}_{{s}_{i}～{p}_{{\text{π}} }，{a}_{i}～{\text{π}} }\left[{R}_{t}|s，a\right]\\ {V}^{{\text{π}} }（{s}_{t}）={\mathbb{E}}_{{s}_{i}～{p}_{{\text{π}} }}\left[{R}_{t}|s\right]\\ {Q}^{{\text{π}} }（{s}_{t}，{a}_{t}）=r（{s}_{t}，{a}_{t}）+{V}^{{\text{π}} }（{s}_{t+1}）\end{array}\right. $$

(2)

本研究采用的深度强化学习算法为TD3算法。该算法包含了6个深度神经网络（1个Actor网络、2个Critic网络以及各自对应的Target网络）。TD3算法设置2个Critic网络，可有效缓解Q函数值（简称Q值）高估的问题，延迟Actor网络的更新，减少积累误差，从而降低方差。此外，还引入了一种SARSA型正则化技术，通过改变时序差分目标自举出相似的状态动作对。

1.3 基于深度强化学习的控制策略控制

图5为翼型流动分离的闭环控制系统示意图，图中$ {C}_{p} $为压力系数。在实验中，状态空间$ S $分为2种：第1种是翼型上表面距前缘40%、90%弦长位置的压力系数；第2种在第1种的基础上额外增加智能体的动作输出，即将智能体的动作输出也纳入到观测环境中。为了提高智能体的动态性能，智能体的输入不仅包括当前时刻的观测量$ {S}_{t} $，还会往前追加4步，即智能体的实际观测量为$ \{{S}_{t-4}，{S}_{t-3}， {S}_{t-2}，{S}_{t-1}，{S}_{t}\} $。动作空间$ A $为施加在电磁比例阀上的电压，体现为射流出口速度。射流激励器的控制信号为0～5 V，对应的射流出口速度为0～22 m/s；激励器的控制频率为100 Hz。

图 5 闭环控制系统示意图

Fig. 5 Schematics of the closed-loop control system

下载: 全尺寸图片幻灯片

后缘附近的压力系数能够反映流动分离是否被抑制。当气流附着到机翼表面时，由于压力恢复，后缘的压力系数$ {C}_{p} $会接近于零。因此，奖励值$ {R}_{t} $通过机翼后缘处（距前缘90%弦长）给出，奖励函数可设置为2类：

第1类为离散型奖励函数：

$$ {R}_{t}=\left\{\begin{array}{c}1-{C}_{a}{A}_{t}^{2} ，\ \ {C}_{p} > {C}_{p{\rm{0}} }\\ 0-{C}_{a}{A}_{t}^{2} ，\ \ {C}_{p}\leqslant {C}_{p{\rm{0}} }\end{array}\right.$$

(3)

式中，$ {C}_{a} $为惩罚系数，${C}_{p{\rm{0}}}$为函数分段点。依据流动分离是否被抑制，将奖励离散为0和1，同时附加一个额外的惩罚项${C}_{a}{A}_{t}^{2} $，用于惩罚吹气量的大小，输出动作越大，惩罚项会越大。图6显示了迎角16°时，距前缘90%弦长处的压力系数的时间变化图。图中，射流激励器在第4 s时以最大的动作（5 V）启动，压力系数从–0.50增加到–0.05，流动分离被抑制。根据该结果，将${C}_{p{\rm{0 }}}$设定为–0.30，当距前缘90%弦长处压力系数大于–0.30时，可以认为流动分离已经被抑制或者一定程度上被抑制。

图 6 翼型后缘压力系数随时间变化

Fig. 6 Time variation of the pressure coefficient of the airfoil trailing edge

下载: 全尺寸图片幻灯片

第2类为连续型奖励函数：

$$ {R}_{t}=-\left|{C}_{p}-{C}_{p1}\right|-{C}_{a}{A}_{t}^{2} $$

(4)

当后缘处的压力系数$ {C}_{p} $越接近目标压力系数${C}_{p1}$时，智能体得到的奖励值越接近于0；当后缘处的压力系数$ {C}_{p} $越偏离目标压力系数${C}_{p1}$时，智能体会得到一个更大的负值；同时，智能体还附加有吹气的惩罚量。

离散型奖励函数的目标是抑制翼型的流动分离，而连续型奖励函数的目标则是希望对后缘处的压力系数进行精确控制。

图7展示了智能体的简要学习流程，图中L（θ）为网络参数θ的损失函数。每一个完整的时间步包含了控制部分和训练部分。在开始的时间节点上，智能体根据测压孔测量的翼型表面压力系数$ {S}_{t} $和Actor网络给出的电磁比例阀控制信号$ {A}_{t} $来控制翼型前部的射流速度；在结束的时间节点上测得翼型表面压力系数$ {S}_{t+1} $，根据设置的奖励函数返回一个奖励值$ {R}_{t} $；将$ \left\{{S}_{t}，{A}_{t}，{R}_{t}，{S}_{t+1}\right\} $作为一组数据存入经验池B中。训练部分即从经验池中随机选择一批数据用于神经网络的学习，对Actor网络和Critic网络进行参数更新，而Target网络则根据相应网络参数的变化进行平滑更新。

图 7 智能体简要学习流程

Fig. 7 TD3 algorithm learning process

下载: 全尺寸图片幻灯片

2 结果与讨论

在实验中，对于训练的智能体而言，训练前没有获得任何的先验知识，初始化的智能体输出在给定输出范围的中值（2.5 V）附近。实验每一幕为500个时间步，即5 s。每一幕的总奖励值被定义为500个时间步获得的总奖励值。在训练过程中，由于每一次输出动作都会附加一个随机噪声，总奖励值并不能准确地表示智能体的性能，因此在每训练20幕之后增加测试环节。由于奖励函数不同，智能体每一幕获得的总奖励值也不尽相同，因此下文中的总奖励值均经过统一化处理，以离散型奖励、${C}_{a}=0.010$为计算方式。实验探究了观测量改变（2种方式，即仅以翼型表面压力数据作为观测量或将翼型表面压力数据和智能体自身动作一同作为观测量）对智能体性能的影响，获得了离散型奖励和连续型奖励下智能体的训练效果，最后对训练完成的智能体在其他迎角和风速下的控制效果进行了测试。

2.1 奖励值的变化趋势图

图8显示了惩罚系数C_a=0.010时、离散型奖励下测试环节总奖励值随幕数的变化规律。在训练初始阶段，由于初始化的智能体输出动作在2.5 V附近，射流出口气体速度低，不能抑制翼型的流动分离，无法获取流动再附带来的奖励收益，因此智能体更趋向于降低吹气量以减小吹气惩罚，每一幕的总奖励值一直徘徊在0附近。直到某一刻，一个巨大的动作噪声将输出动作带到了5.0 V附近，射流吹气量陡然增大，流动分离被抑制，智能体学到了有益的经验，总奖励值便开始上升，随后稳定在250左右。如图9所示，此时在智能体的控制下，翼型表面靠近后缘处的压力系数在–0.50～0之间波动，输出动作开始周期性变化，但是动作集中在0 V附近，智能体倾向于少吹气。如图8所示，在60幕的时候，智能体达到了当前参数设置下的最佳控制策略，随后奖励值又开始下降。

图 8 测试环节总奖励值随幕数变化

Fig. 8 The total reward value of the test session varies with episodes

下载: 全尺寸图片幻灯片

图 9 第20幕测试下翼型后缘压力系数和输出电压随时间变化

Fig. 9 Time variation of the pressure coefficient of the airfoil trailing edge and the output voltage at twentieth episode

下载: 全尺寸图片幻灯片

2.2 仅观测压力数据的控制结果对比

2.2.1 离散型奖励控制结果

图10展示了仅以翼型表面压力系数为观测量时、在不同惩罚系数下翼型表面后缘处压力系数随时间的变化和智能体输出动作随时间的变化。由于奖励函数不同，相同时序后缘压力系数在不同奖励函数下获得的奖励也有所不同（图中的总奖励值均经过统一化处理）。可以看出：当惩罚系数$ {C}_{a} $=0时，即对智能体的输出动作不存在惩罚时，智能体毫不犹豫地选择了以最大动作5.0 V输出，抑制了流动分离；而相对于定常吹气，周期性的激励肯定是更好的选择，但是当奖励函数中不存在动作的惩罚时，智能体无法学到该控制律。当惩罚系数$ {C}_{a} $升高至0.005时，惩罚项开始对智能体的控制策略产生影响，翼型后缘压力系数稳定在–0.30以上，这表明翼型的流动分离得到抑制，并且动作输出开始周期性波动，波动的区间限制在2.0～5.0 V。当惩罚系数$ {C}_{a} $=0.010时，训练出的智能体达到了最好的性能表现，输出动作从0和5.0 V开始周期性波动，无量纲激励频率F⁺=0.13。将智能体10 s内的动作输出进行加权平均后，吹气量比定常吹气（5.0 V）减少约52%。当惩罚系数增大至0.020时，由于惩罚项的占比过大，智能体难以逃脱低输出带来的低惩罚，陷入局部最优难以跳出，智能体的控制策略更倾向于集中在0 V附近，控制效果不理想。

图 10 不同惩罚系数下翼型后缘压力系数和输出电压随时间变化

Fig. 10 Time variation of airfoil trailing edge pressure coefficient and output voltage with different C_a

下载: 全尺寸图片幻灯片

2.2.2 连续型奖励控制结果

图11展示了将奖励函数设置为连续奖励时、在智能体控制下翼型表面后缘处压力系数随时间的变化和智能体输出动作随时间的变化。将奖励连续化后，数值上与离散型奖励相差了一个数量级，因而也将惩罚系数减小了一个数量级，奖励函数$ {R}_{t}= -\left|{C}_{p}-（-0.20）\right|-0.001{A}_{t}^{2} $。由图可见，连续型奖励设置下的智能体也训练出周期性的激励，但是并不能将后缘处压力系数稳定在目标值–0.20附近，波动范围很大；但是，它也可以将翼型后缘压力系数控制在–0.30以上，只是输出动作在1.6～5.0 V之间波动，总奖励值略低于离散型奖励下的控制策略。

图 11 连续奖励函数下翼型后缘压力系数和输出电压随时间变化

Fig. 11 Time variation of continuous reward function airfoil trailing edge pressure coefficient and output voltage

下载: 全尺寸图片幻灯片

由此可见，不论是离散型奖励，还是连续型奖励，仅以翼型表面压力数据作为观测量，训练出的智能体并不能很好地达到效果。在强化学习中，对算法性能影响较大的因素是决策链的马尔可夫性质。马尔可夫性质表示系统下一个状态只和当前状态有关，而与之前的状态无关。换言之，根据当前的观测量加上动作量就可以完全确定未来状态轨迹的分布。而在真实的动力学系统中，由于存在实验时间延迟以及误差，系统真实状态无法被完全且准确地获取，进而导致决策链的非马尔可夫性质。下面将在观测量中引入智能体以往采取的动作量，进一步增强系统的马尔可夫性质，并对控制结果进行讨论。

2.3 压力数据与控制动作一同作为观测量的控制结果对比

2.3.1 离散型奖励控制结果

将智能体自身的动作输出加入到观测量，即观测量变为0.04 s内翼型表面压力数据以及智能体自身动作输出的时间序列。图12展示了将动作加入观测量后离散奖励函数下不同惩罚系数对智能体最终训练结果的影响。可以发现，当惩罚系数$ {C}_{a} $= 0.010时，智能体表现出了更加严格的周期性控制，控制频率更高，并且压力系数稳定在–0.10以上，与定常吹气（5.0 V）效果基本一致，但吹气量更少，为定常吹气的50%。而当$ {C}_{a} $=0.020时，智能体则表现出了极致的贪婪，在满足$ {C}_{p} $ > –0.30的前提下尽可能地减少吹气，当压力系数开始下降并将降至–0.30时，智能体才会提前进行一次5.0 V的动作输出，将压力系数拉回。图13对2种控制律进行了傅里叶变换，可以发现，当$ {C}_{a} $=0.010时，傅里叶变换后的幅值P只有一个峰值，对应的无量纲激励频率F⁺=0.50，这表明智能体训练出了一种固定单一频率的控制律，这种周期性激励方式是抑制翼型流动分离的一种典型控制律。当$ {C}_{a} $=0.020时，对控制律进行傅里叶变换后，没有确定的主导频率，存在多个频率共同作用。

图 12 离散奖励函数、不同惩罚系数下翼型后缘压力系数和输出电压随时间变化

Fig. 12 Time variation of airfoil trailing edge pressure coefficient and output voltage with different C_a under discrete rewards

下载: 全尺寸图片幻灯片

图 13 不同控制律的傅里叶变换

Fig. 13 Fourier transform of different control laws

下载: 全尺寸图片幻灯片

2.3.2 连续型奖励控制结果

图14展示了将奖励函数设置为连续奖励时，不同目标压力系数$ {C}_{p1} $下智能体控制的翼型表面后缘压力系数随时间的变化和智能体输出动作随时间的变化。可以看出，当$ {C}_{p1}$为−0.10和−0.20时，智能体可以将翼型后缘压力系数稳定地控制在$ {C}_{p1} $附近。当$ {C}_{p1}=-0.10 $时，后缘处（0.9 c）压力系数起初会有一点超调量，随后便稳定在$ -0.10 $附近，上下波动不超过±0.03。当$ {C}_{p1}=-0.20 $时，智能体也可以将后缘处（0.9 c）压力系数控制在$ -0.20 $附近，上下波动在±0.05以内。将2种控制律进行傅里叶变换后（图15）可以发现，两者都有一个主导频率（即F⁺≈0.66），不同的是两者主频的幅值。当$ {C}_{p1}=-0.10 $时，在F⁺=0处幅值P₀=4.0 V，而$ {C}_{p1}=-0.20$时的P₀=3.0 V，说明2种控制律在基准动作上也有所不同。与仅将压力系数作为状态输入相比，加入动作量状态输入后，智能体的性能大大提升，能够根据奖励函数的设置将压力系数稳定在目标值附近。

下载: 全尺寸图片幻灯片

图 14 连续奖励函数下翼型后缘压力系数和输出电压随时间变化

Fig. 14 Time variation of continuous reward function airfoil trailing edge pressure coefficient and output voltage

下载: 全尺寸图片幻灯片

图 15 不同控制律的傅里叶变换

Fig. 15 Fourier transform of different control laws

下载: 全尺寸图片幻灯片

2.3.3 智能体泛化能力测试

图16为智能体在不同迎角与风速条件下的性能表现。智能体是在迎角16°、实验风速10 m/s的状态下进行训练的，目标压力系数$ {C}_{p1} $=–0.20。训练完成后，将迎角调节为15°和17°，或将实验风速调整为8和12 m/s。由图16（a）～（c）可以看出，在改变风速和降低迎角的情况下，智能体可以将翼型后缘压力系数稳定控制在$ {C}_{p1} $附近；相较于训练工况，测试工况压力系数波动较大；不同状态下，输出的控制律也有所不同。由此可见，通过训练的智能体具备良好的泛化能力。但是在增大迎角的情况下（图16（d）），智能体的泛化能力减弱，不能完成后缘压力系数稳定控制的任务。

图 16 不同迎角与风速下翼型后缘压力系数和输出电压随时间变化

Fig. 16 Time variation of airfoil trailing edge pressure coefficient and output voltage under different angles of attack and wind speeds

下载: 全尺寸图片幻灯片

3 结　论

本文将深度强化学习应用在翼型分离流的主动控制实验中，在无需获取翼型模型的情况下，其能够根据奖励函数完成不同的控制任务。实验研究了基于深度强化学习算法的射流激励器在NACA0012翼型上的闭环流动控制，对比了不同状态输入和不同奖励函数对控制效果的影响。结果表明：

1）基于DRL算法的闭环控制系统可以实现大迎角下流动分离的抑制，并且是在没有任何先验知识的情况下完成了控制律的训练。与定常吹气相比，训练出的非定常吹气可以在满足抑制分离的条件下减少50%的吹气量。在训练过程中，DRL算法不仅能训练出典型控制律，还可以发现新的控制方案。

2）奖励函数的设置对于智能体的训练效果有很大的影响。离散型奖励中，惩罚系数的大小直接影响智能体的策略；而采用不同的奖励（离散型和连续型奖励）也会导致控制效果的差异。

3）对于机翼大迎角流动分离这类准周期运动，将动作量加入观测量可以极大地改善智能体性能。加入动作量后，离散型奖励可以训练出更高频率的控制律，此外还可以在满足条件的情况下尽可能地减小吹气量；连续型奖励训练出的智能体可以将后缘压力系数稳定控制在目标值附近，这是开环控制难以做到的。在改变风速和降低迎角的情况下，智能体具有良好的泛化能力。

图 1 稀土Dy³⁺离子的能级图

Fig. 1 The energy levels of Dy³⁺

下载: 全尺寸图片幻灯片

图 2 喷涂YAG:Dy材料的陶瓷片在自然光和365 nm紫外灯下的照片

Fig. 2 The photos of ceramic sheet sprayed with YAG:Dy under natural light and 365 nm UV lamp

下载: 全尺寸图片幻灯片

图 3 室温下YAG:Dy的发射光谱（室温）

Fig. 3 The emission spectrum of YAG:Dy (room temperature)

下载: 全尺寸图片幻灯片

图 4 室温下YAG:Dy的激发光谱（室温）

Fig. 4 The excitation spectrum of YAG:Dy (room temperature)

下载: 全尺寸图片幻灯片

图 5 YAG:Dy在不同温度下的发射光谱

Fig. 5 The emission spectrum of YAG:Dy at different temperatures

下载: 全尺寸图片幻灯片

图 6 温度标定实验装置

Fig. 6 The temperature calibration experimental device

下载: 全尺寸图片幻灯片

图 7 温度标定系统示意图

Fig. 7 Schematic diagram of temperature calibration system

下载: 全尺寸图片幻灯片

图 8 温度测试仪器图

Fig. 8 Photo of temperature test instruments

下载: 全尺寸图片幻灯片

图 9 不同温度下喷涂YAG:Dy材料的陶瓷片的照片

Fig. 9 Photos of ceramic sheet sprayed with YAG:Dy material at different temperatures

下载: 全尺寸图片幻灯片

图 10 650 ℃时的发光图像处理

Fig. 10 Image processing of emission at 650 ℃

下载: 全尺寸图片幻灯片

图 11 两个波段发光强度比值与温度的关系

Fig. 11 The relationship between the ratio of two bands and temperature

下载: 全尺寸图片幻灯片

图 12 陶瓷片在电炉上的照片

Fig. 12 Photo of ceramic sheet sprayed with YAG:Dy on electric furnace

下载: 全尺寸图片幻灯片

图 13 使用荧光强度比法获得的陶瓷片表面温度分布

Fig. 13 Surface temperature distribution of ceramic sheet obtained by fluorescence intensity ratio method

下载: 全尺寸图片幻灯片

图 14 红外热像仪测得的陶瓷片表面温度分布

Fig. 14 Surface temperature distribution of ceramic sheet measured by Infrared thermal imager

下载: 全尺寸图片幻灯片

图 15 荧光强度比法和红外热像仪2测试结果的比较

Fig. 15 Comparison between fluorescence intensity ratio method and infrared thermal imager 2 test results

下载: 全尺寸图片幻灯片

表 1 相机型号及主要参数

Table 1 Camera model and main parameters

名称	品牌	相机型号	像素数（像素×像素）	波长
CCD相机	Andor	iXon Ultra 897	512×512	可见光
红外热像仪1	上海都泰	DTC–111M	764×480	0.85～1.1 µm
红外热像仪2	上海都泰	DTC–1400	382×288	7.5～13 µm

下载: 导出CSV

表 2 带通滤波片主要参数

Table 2 The parameters of bandpass filter

名称	中心波长/nm	带宽/nm	透过率	截止范围/nm	截止深度
滤波片1	455±2	10	＞85%	200～800	OD3～OD4
滤波片2	485±2	10	＞80%	200～750	OD3～OD4

下载: 导出CSV

表 3 拟合参数表

Table 3 Fitting parameters

参数	值
y₀	5593.26623
A₁	−3707.78694
t₁	−0.01571
A₂	−208.4351
t₂	−0.14232
A₃	−5354.53068
t₃	−5.94912
Reduced Chi-Square	67.37487
R² (COD)	0.99946
Adjusted R²	0.99923

下载: 导出CSV

参考文献(29)

[1]	钱炜祺, 周宇, 何开锋, 等. 表面热流辨识技术在边界层转捩位置测量中的应用初步研究[J]. 实验流体力学, 2012, 26(1): 74–78. DOI: 10.3969/j.issn.1672-9897.2012.01.015 QIAN W Q, ZHOU Y, HE K F, et al. A preliminary study for application of surface heat flux estimation technology in transition measurement[J]. Journal of Experiments in Fluid Mechanics, 2012, 26(1): 74–78. doi: 10.3969/j.issn.1672-9897.2012.01.015
[2]	韩曙光, 贾广森, 文帅, 等. 磷光热图技术在常规高超声速风洞热环境实验中的应用[J]. 气体物理, 2017, 2(4): 56–63. DOI: 10.19527/j.cnki.2096-1642.2017.04.006 HAN S G, JIA G S, WEN S, et al. Heat transfer measurement using a quantitative phosphor thermography system in blowdown hypersonic facility[J]. Physics of Gases, 2017, 2(4): 56–63. doi: 10.19527/j.cnki.2096-1642.2017.04.006
[3]	HAN S G, WEN S, WU C H, et al. Global heat-flux measurements using phosphor thermography technique in gun tunnel[C]//Proc of the 20th AIAA International Space Planes and Hypersonic Systems and Technologies Conference. 2015. doi: 10.2514/6.2015-3517
[4]	KLEIN C, YORITA D, HENNE U, et al. Application of Temperature Sensitive Paint to investigate laminar-to-turbulent transition on nacelles[C]//Proc of the AIAA Scitech 2020 Forum. 2020: 1608. doi: 10.2514/6.2020-1608
[5]	BUCK G. Surface temperature/heat transfer measurement using a quantitative phosphor thermography system[C]//Proc of the 29th Aerospace Sciences Meeting. 1991: 64. doi: 10.2514/6.1991-64
[6]	THOMPSON R A, HARRIS H H II, BERRY S A, et al. Hypersonic boundary layer transition for X-33 Phase II vehicle[C]//Proc of the 36th AIAA Aerospace Sciences Meeting and Exhibit. 1998: 867. doi: 10.2514/6.1998-867
[7]	张扣立, 周嘉穗, 孔荣宗, 等. CARDC 激波风洞 TSP 技术研究进展[J]. 空气动力学学报, 2016, 34(6): 738–743. DOI: 10.7638/kqdlxxb-2015.0151 ZHANG K L, ZHOU J S, KONG R Z, et al. Development of TSP technique in shock tunnel of CARDC[J]. Acta Aerodynamica Sinica, 2016, 34(6): 738–743. doi: 10.7638/kqdlxxb-2015.0151
[8]	毕志献, 韩曙光, 伍超华, 等. 磷光热图测热技术研究[J]. 实验流体力学, 2013, 27(3): 87–92. DOI: 10.3969/j.issn.1672-9897.2013.03.017 BI Z X, HAN S G, WU C H, et al. Phosphor thermography study in gun tunnel[J]. Journal of Experiments in Fluid Mechanics, 2013, 27(3): 87–92. doi: 10.3969/j.issn.1672-9897.2013.03.017
[9]	刘祥, 熊健, 马护生, 等. 温敏漆校准及图像后处理方法研究[J]. 实验流体力学, 2020, 34(4): 53–61. DOI: 10.11729/syltlx20190054 LIU X, XIONG J, MA H S, et al. The calibration and image post-processing method research of temperature-sensitive paint[J]. Journal of Experiments in Fluid Mechanics, 2020, 34(4): 53–61. doi: 10.11729/syltlx20190054
[10]	江小峰, 李亚东, 李欣, 等. 基于荧光寿命机理的光纤温度传感器研究[J]. 分析测试技术与仪器, 2015, 21(2): 124–128. DOI: 10.16495/j.1006-3757.2015.02.011 JIANG X F, LI Y D, LI X, et al. Fiber temperature sensor based on fluorescent lifetime[J]. Analysis and Testing Technology and Instruments, 2015, 21(2): 124–128. doi: 10.16495/j.1006-3757.2015.02.011
[11]	李心悦. 基于发光材料的温度探测新机制探索[D]. 合肥: 中国科学技术大学, 2016. LI X Y. The new mechanisms based on luminescent materials for temperature sensing[D]. Hefei: University of Science and Technology of China, 2016.
[12]	芦泓宇. 基于稀土掺杂上转换材料荧光峰值比的温度传感[D]. 哈尔滨: 哈尔滨工业大学, 2017. LU H Y. Temperature sensing of rare earth doped upconversion materials based on fluorescence intensity ratio technique[D]. Harbin: Harbin Institute of Technology, 2017.
[13]	田媛媛. 稀土离子掺杂铌酸盐微纳米材料的上转换发光及温度传感特性的研究[D]. 太原: 太原理工大学, 2017. TIAN Y Y. Study of upconversion luminescence and temperature sensing behavior of rare earth ions doped niobate micro-/nanoparticles[D]. Taiyuan: Taiyuan University of Technology, 2017.
[14]	FU J P, PANG R, JIANG L H, et al. A novel dichromic self-referencing optical probe SrO:Bi³⁺, Eu³⁺ for temperature spatially and temporally imaging[J]. Dalton Transactions, 2016, 45(34): 13317–13323. doi: 10.1039/c6dt01552b
[15]	LI H F, PANG R, SUN W Z, et al. Sr_1.7Zn_0.3CeO₄F_0.2:Eu³⁺: novel dual-emission temperature sensors for remote, non-contact thermometric application[J]. RSC Advances, 2017, 7(16): 9645–9652. doi: 10.1039/c6ra25092k
[16]	SHI L L, LI C Y, SU Q. Temperature-dependent photoluminescence properties of Sr₂CeO₄:Eu³⁺ and its modi-fication for use in fluorescence thermometry[J]. Optics Letters, 2011, 36(4): 582–584. doi: 10.1364/OL.36.000582
[17]	张洪杰, 李成宇, 周亮, 等. 稀土发光材料及器件的制备与应用[C]//第七届全国稀土发光材料学术研讨会会议论文摘要集. 2011. ZHANG H J, LI C Y, ZHOU L, et al. Preparation and application of rare earth luminescent materials and devices [C]//Proceedings of the 7th National Conference on rare earth luminescent materials. 2011.
[18]	ALLISON S W, BESHEARS D L, BENCIC T, et al. Development of temperature-sensitive paints for high-temperature aeropropulsion applications[C]//Proc of the 37th Joint Propulsion Conference and Exhibit. 2001: 3528. doi: 10.2514/6.2001-3528
[19]	FLORES-BRITO W, WESTPHAL E, WILBURN B R, et al. Study of sensitivity vs. excitation time of LED excited thermographic phosphors[C]//Proc of the AIAA Scitech 2019 Forum. 2019: 2106. doi: 10.2514/6.2019-2106
[20]	EVSTROPIEV S K, Demidov V V, BULYGA D V, et al. YAG:R³⁺ (R=Ce, Dy, Yb) nanophosphor-based luminescent fibre-optic sensors for temperature measurements in the range 20–500 °C[J]. Quantum Electronics, 2022, 52(1): 94–99. doi: 10.1070/QEL17971
[21]	KONTIS K, YOSHIKAWA N. Surface thermography by laser-induced fluorescence for transient heat transfer measurements in high-speed flows[C]//Proc of the 17th Applied Aerodynamics Conference. 1999: 3170. doi: 10.2514/6.1999-3170
[22]	CHAMBERS M D, CLARKE D R. Doped oxides for high-temperature luminescence and lifetime thermometry[J]. Annual Review of Materials Research, 2009, 39: 325–359. doi: 10.1146/annurev-matsci-112408-125237
[23]	CHEPYGA L M, JOVICIC G, VETTER A, et al. Photoluminescence properties of thermographic phosphors YAG:Dy and YAG:Dy, Er doped with boron and nitrogen[J]. Applied Physics B, 2016, 122(8): 1–10. doi: 10.1007/s00340-016-6487-8
[24]	HASHEMI A, VETTER A, JOVICIC G, et al. Temperature measurements using YAG:Dy and YAG:Sm under diode laser excitation (405 nm)[J]. Measurement Science and Technology, 2015, 26(7): 075202. doi: 10.1088/0957-0233/26/7/075202
[25]	ISHIWADA N, FUJII E, YOKOMORI T. Evaluation of Dy-doped phosphors (YAG:Dy, Al₂O₃:Dy, and Y₂SiO₅:Dy) as thermographic phosphors[J]. Journal of Luminescence, 2018, 196: 492–497. doi: 10.1016/j.jlumin.2017.11.045
[26]	KLIMCZAK M, MALINOWSKI M, SARNECKI J, et al. Luminescence properties in the visible of Dy:YAG/YAG planar waveguides[J]. Journal of Luminescence, 2009, 129(12): 1869–1873. doi: 10.1016/j.jlumin.2009.04.073
[27]	REGMI A R, ALLISON S W, OLENICK K, et al. High temperature phosphor thermometry with YAG:Dy and LED excitation on flexible YSZ ceramic ribbons[J]. MRS Communications, 2021, 11(3): 322–329. doi: 10.1557/s43579-021-00046-8
[28]	ALLISON S W, BESHEARS D L, CATES M R, et al. Luminescence of YAG:Dy and YAG:Dy, Er crystals to 1700 ℃[J]. Measurement Science and Technology, 2020, 31(4): 044001. doi: 10.1088/1361-6501/ab4ebd
[29]	FLORES-BRITO W, MAHAFFEY J, VACKEL A, et al. Aerosol deposition of dysprosium-doped yttrium-aluminum-garnet for phosphor thermography applications[C]//Proc of the AIAA Scitech 2019 Forum. 2019: 2102. doi: 10.2514/6.2019-2102

施引文献(7)

期刊类型引用(3)

1.	陈勇，孔维梁，刘洪. 飞机过冷大水滴结冰气象条件运行设计挑战. 航空学报. 2023(01): 7-21 . 百度学术
2.	唐扬刚，吴敬涛，邓文亮. 过冷大水滴撞击结冰特性实验研究. 低温工程. 2022(04): 42-48 . 百度学术
3.	徐弘，孔维梁，王福新，刘洪. 过冷大水滴相继撞壁对结冰影响的实验研究. 实验流体力学. 2018(02): 28-34 . 本站查看

其他类型引用(4)

资源附件(0)

图(15) / 表(3)

计量

文章访问数: 722
HTML全文浏览量: 212
PDF下载量: 85
被引次数: 7

0 引　言
1 实验方案
1.1 实验设置
1.2 深度强化学习
1.3 基于深度强化学习的控制策略控制
2 结果与讨论
2.1 奖励值的变化趋势图
2.2 仅观测压力数据的控制结果对比
2.2.1 离散型奖励控制结果
2.2.2 连续型奖励控制结果
2.3 压力数据与控制动作一同作为观测量的控制结果对比
2.3.1 离散型奖励控制结果
2.3.2 连续型奖励控制结果
2.3.3 智能体泛化能力测试
3 结　论

0 引　言
1 实验方案
1.1 实验设置
1.2 深度强化学习
1.3 基于深度强化学习的控制策略控制
2 结果与讨论
2.1 奖励值的变化趋势图
2.2 仅观测压力数据的控制结果对比
2.2.1 离散型奖励控制结果
2.2.2 连续型奖励控制结果
2.3 压力数据与控制动作一同作为观测量的控制结果对比
2.3.1 离散型奖励控制结果
2.3.2 连续型奖励控制结果
2.3.3 智能体泛化能力测试
3 结　论

参考文献(29)

施引文献

资源附件(0)

基于稀土Dy离子荧光强度比的温度测试技术

通讯作者: 张粟: E-mail：zhangsu@ciac.ac.cn

计量

出版历程

A temperature measurement technique based on fluorescence intensity ratio of rare earth Dy ion

0 引 言

1 实验方案

1.1 实验设置

1.2 深度强化学习

1.3 基于深度强化学习的控制策略控制

2 结果与讨论

2.1 奖励值的变化趋势图

2.2 仅观测压力数据的控制结果对比

2.2.1 离散型奖励控制结果

2.2.2 连续型奖励控制结果

2.3 压力数据与控制动作一同作为观测量的控制结果对比

2.3.1 离散型奖励控制结果

2.3.2 连续型奖励控制结果

2.3.3 智能体泛化能力测试

3 结 论

期刊类型引用(3)

其他类型引用(4)

计量

出版历程

目录

0 引 言

1 实验方案

1.1 实验设置

1.2 深度强化学习

1.3 基于深度强化学习的控制策略控制

2 结果与讨论

2.1 奖励值的变化趋势图

2.2 仅观测压力数据的控制结果对比

2.2.1 离散型奖励控制结果

2.2.2 连续型奖励控制结果

2.3 压力数据与控制动作一同作为观测量的控制结果对比

2.3.1 离散型奖励控制结果

2.3.2 连续型奖励控制结果

2.3.3 智能体泛化能力测试

3 结 论

通讯作者:
张粟: E-mail：zhangsu@ciac.ac.cn

0 引　言

3 结　论

0 引　言

3 结　论