banner
Maison / Nouvelles / Données
Nouvelles

Données

Apr 10, 2023Apr 10, 2023

Rapports scientifiques volume 13, Numéro d'article : 7517 (2023) Citer cet article

402 accès

1 Altmétrique

Détails des métriques

L'automatisation complète de la fabrication de matériaux avec une productivité élevée est un problème clé dans le traitement de certains matériaux. Dans la croissance cristalline en zone flottante (FZ), qui est un procédé de fabrication de plaquettes semi-conductrices telles que le silicium, un opérateur contrôle de manière adaptative les paramètres d'entrée en fonction de l'état du processus de croissance cristalline. Étant donné que la dynamique de fonctionnement de la croissance des cristaux FZ est compliquée, l'automatisation est souvent difficile et le processus est généralement contrôlé manuellement. Ici, nous démontrons le contrôle automatisé de la croissance des cristaux FZ par apprentissage par renforcement en utilisant la dynamique prédite par la modélisation de mélange gaussien (GMM) à partir d'un petit nombre de trajectoires. Notre méthode proposée pour construire le modèle de contrôle est entièrement basée sur les données. À l'aide d'un programme émulateur pour la croissance cristalline FZ, nous montrons que le modèle de contrôle construit par notre modèle proposé peut suivre plus précisément la trajectoire de croissance idéale que les trajectoires de démonstration créées par l'opération humaine. De plus, nous révélons que l'optimisation des politiques près des trajectoires de démonstration réalise un contrôle précis suivant la trajectoire idéale.

L'application de l'informatique nous a permis de réaliser une optimisation, une automatisation et des avancées efficaces dans le traitement des matériaux1,2,3,4,5,6,7,8,9. La conception des conditions et des environnements pour le traitement des matériaux a été efficacement optimisée à l'aide de modèles de substitution construits par des réseaux de neurones ou d'autres algorithmes d'apprentissage automatique1,2,6,10,11,12,13. L'optimisation bayésienne peut réduire avec succès le nombre d'essais pour l'acquisition de conditions favorables pour le traitement des matériaux14,15,16,17. D'autre part, certains traitements de matériaux nécessitent un contrôle manuel en fonction des informations obtenues pendant le fonctionnement et sont difficiles à automatiser. Par exemple, dans la croissance cristalline à zone flottante (FZ), qui est utilisée pour produire des tranches de silicium et divers types de matériaux cristallins tels que des semi-conducteurs, des oxydes, des métaux et des composés intermétalliques, un opérateur contrôle de manière adaptative les paramètres d'entrée pour maintenir les conditions préférées pour croissance monocristalline en surveillant l'état de la fonte dans la chambre18,19,20,21,22,23,24,25,26,27,28. Dans la présente étude, nous avons cherché à construire un modèle de contrôle pour le fonctionnement automatisé de la croissance cristalline FZ à partir d'un petit nombre de trajectoires de fonctionnement.

La croissance cristalline FZ a été développée pour produire des monocristaux de silicium de haute pureté sans que la zone fondue n'entre en contact avec des matériaux étrangers. Malgré son avantage dans la croissance de cristaux de haute pureté, l'élargissement du diamètre cristallin est difficile par rapport à d'autres techniques de croissance cristalline telles que la méthode Czochralski. Des tranches de silicium relativement petites sont fabriquées par croissance cristalline FZ en utilisant un chauffage RF. La figure 1 montre une illustration schématique de la croissance cristalline FZ. Dans cette méthode, une partie d'une tige polycristalline est chauffée pour créer une fusion FZ, et la tige supérieure (alimentation) et la tige inférieure (graine) sont déplacées vers le bas pour maintenir la fusion FZ par tension superficielle; enfin, le cristal se développe sur la tige de semence. Un opérateur contrôle les paramètres d'entrée, tels que la puissance de chauffage et la vitesse de la tige d'alimentation, de sorte que la masse fondue FZ ne se sépare pas ou ne s'égoutte pas. De plus, l'opérateur doit former une certaine forme dans laquelle le diamètre du cristal est d'abord réduit (appelé « striction ») puis augmenter le diamètre du cristal pour obtenir un monocristal. Étant donné que la dynamique de l'état de fusion en fonction des paramètres d'entrée est non linéaire et compliquée, il est difficile de simuler le processus de croissance cristalline FZ, comme cela a été réalisé pour d'autres méthodes de croissance cristalline29,30,31,32,33. Ainsi, il est nécessaire de prédire la dynamique de croissance des cristaux FZ à partir des trajectoires de fonctionnement. En raison de la difficulté d'acquérir de nombreuses trajectoires de fonctionnement pour la croissance des cristaux FZ, nous avons récemment proposé l'adaptation du modèle de mélange gaussien (GMM) pour prédire la dynamique de la croissance des cristaux FZ, et démontré que le GMM peut prédire avec précision les trajectoires de fonctionnement à partir de seulement cinq trajectoires utilisées. pour la formation34. Dans la présente étude, nous avons construit un modèle de contrôle par apprentissage par renforcement en utilisant l'optimisation de politique proximale (PPO) et la dynamique prédite par GMM.

Illustration schématique de la croissance cristalline de la zone flottante. Une masse fondue de zone flottante de hauteur h est formée par la puissance de chauffage P. Une alimentation de diamètre d0 et un cristal sont déplacés vers le bas avec des vitesses v et u0, respectivement. En conséquence, un cristal de diamètre d est développé.

Pour le contrôle de la croissance cristalline FZ avec un petit nombre de trajectoires de démonstration, nous avons appliqué l'apprentissage par renforcement par PPO avec la dynamique prédite par GMM. Nous décrivons ici comment construire un modèle de contrôle pour la croissance cristalline FZ combinant GMM et PPO sur la base de la littérature35. L'état de la zone flottante fondue au temps (t + 1), qui est supposé être composé de la hauteur (h) et du diamètre du cristal développé (d) et décrit comme st+1 = (ht+1, dt +1), est déterminé par l'état de la masse fondue au temps t (st) et des paramètres d'entrée, qui incluent la puissance (P) et la vitesse de déplacement de l'alimentation (v), par exemple, et décrits comme à = ( Pt, vt).

f représente la véritable dynamique de la croissance cristalline FZ. Une fois le GMM construit à partir des trajectoires de démonstration, l'état de la fonte à l'instant (t + 1) peut être prédit par l'état de la fonte et les paramètres d'entrée à l'instant t :

Le circonflexe (^) représente que la valeur est prédite, et \({\varvec{f}}_{{{\varvec{GMM}}}}\) représente un modèle dynamique entraîné par GMM. Les détails de la formation des GMM sont décrits dans la Réf. 34. Dans PPO, la fonction de politiques paramétrées \(\pi_{{{\varvec{\theta}}_{{\varvec{p}}} }} \left( {{\varvec{a}}_{{\ varvec{t}}} {|}{\varvec{s}}_{{\varvec{t}}} } \right)\) avec le vecteur de paramètre \({\varvec{\theta}}_{{\varvec {p}}}\), qui génère des valeurs d'entrée à partir de l'état actuel xt sous forme de distribution de probabilité, est optimisé de manière itérative à l'aide d'un objectif de substitution tronqué \(L^{CLIP} \left( {{\varvec{\theta}} _{{\varvec{p}}} } \right)\) au lieu d'un gradient de politique35,36,37.

\(\in\) est un hyper-paramètre déterminant une région découpée. \(A\left( {{\varvec{s}}_{{\varvec{t}}} ,{\varvec{a}}_{{\varvec{t}}} } \right)\) est le fonction d'avantage décrite comme suit :

où \(Q\left( {{\varvec{s}}_{{\varvec{t}}} ,{\varvec{a}}_{{\varvec{t}}} } \right)\) est la fonction de valeur d'état-action et \(V\left( {{\varvec{s}}_{{\varvec{t}}} } \right)\) est la fonction de valeur d'état. Ici, nous représentons approximativement \(Q\left( {{\varvec{s}}_{{\varvec{t}}} ,{\varvec{a}}_{{\varvec{t}}} } \right) \) comme suit:

où \(R_{t} \left( {{\varvec{s}}_{{\varvec{t}}} ,{\varvec{a}}_{{\varvec{t}}} } \right) \) et γ sont respectivement la fonction de récompense et le facteur d'actualisation. La fonction d'avantage représente si l'action dans laquelle la valeur d'entrée \({\varvec{a}}_{{\varvec{t}}}\) est définie sous l'état de fusion décrit comme \({\varvec{s}} _{{\varvec{t}}}\) est préférable. Lorsque l'action est préférable, la fonction d'avantage prend une valeur positive et la politique est mise à jour pour augmenter le rapport de probabilité \(r_{t} \left( {{\varvec{\theta}}_{{\varvec{p} }} } \right)\) en maximisant l'objectif de substitution. D'autre part, la fonction d'avantage prend une valeur négative et la politique est mise à jour pour diminuer le rapport de probabilité lorsque l'action n'est pas préférable. Dans des conditions où la politique et la dynamique sont données, des séquences d'états sont générées sous forme de distribution de probabilité et une fonction état-valeur peut être calculée :

où T est la longueur des trajectoires et la valeur attendue est calculée sur la distribution de probabilité des séquences d'états. Dans PPO, la fonction de valeur d'état est prédite à partir des données d'apprentissage sans affecter de stratégie. Ainsi, la fonction état-valeur prédite paramétrée avec \({\varvec{\theta}}_{{\varvec{v}}}\) \(\left( {\hat{V}_{{{\varvec{ \theta}}_{{\varvec{v}}} }} \left( {{\varvec{s}}_{{\varvec{t}}} } \right)} \right)\) est optimisé en utilisant la perte d'erreur carrée \(L^{VF} \left( {{\varvec{\theta}}_{{\varvec{v}}} } \right)\);

Une fois la fonction état-valeur prédite, la fonction action-valeur \(\left( {\hat{Q}\left( {{\varvec{s}}_{{\varvec{t}}} ,{\varvec {a}}_{{\varvec{t}}} } \right)} \right)\) et la fonction d'avantage \(\left( {\hat{A}_{t} } \right)\) sont aussi prédit par les éqs. (6) et (5), respectivement. En plus de l'objectif de substitution écrêté et de l'erreur de la fonction état-valeur, un bonus d'entropie est ajouté pour assurer une exploration suffisante et l'objectif suivant est maximisé pour chaque itération dans PPO38 :

où c1 et c2 sont des poids. Maximiser \(L^{CLIP} \left( {{\varvec{\theta}}_{{\varvec{p}}} } \right)\) signifie acquérir la politique optimisée \(\pi_{{{\varvec {\theta}}_{{\varvec{p}}} }} \left( {{\varvec{a}}_{{\varvec{t}}} {|}{\varvec{s}}_{ {\varvec{t}}} \right)\) comme décrit dans l'équation. (3) et (4). Minimiser \(L^{VF} \left( {{\varvec{\theta}}_{{\varvec{v}}} } \right)\) signifie que la fonction état-valeur est prédite sans supposer une politique comme décrit dans l'éq. (8). Maximiser \(S\left[ {\pi_{{{\varvec{\theta}}_{{\varvec{p}}} }} } \right]\left( {{\varvec{s}}_{{ \varvec{t}}} } \right)\) est une entropie de politique qui est un terme de régularisation pour la formation. Dans PPO, \({\varvec{\theta}}_{{\varvec{p}}} ,\user2{ \theta }_{{\varvec{v}}}\) est optimisé simultanément à chaque itération. Bien que LCLIP dépend de \({\varvec{\theta}}_{{\varvec{v}}}\) via \(A\left( {{\varvec{s}}_{{\varvec{t}} } ,{\varvec{a}}_{{\varvec{t}}} } \right)\) et LVF dépend de \({\varvec{\theta}}_{{\varvec{p}}}\ ) via \(V_{\pi } \left( {{\varvec{s}}_{{\varvec{t}}} } \right)\), dans le processus d'optimisation itératif, \({\varvec{\ theta}}_{{\varvec{v}}}\) dans LCLIP et \({\varvec{\theta}}_{{\varvec{p}}}\) dans LVF sont considérées comme des valeurs constantes et non optimisées , et les valeurs de l'étape précédente sont appliquées.

Afin d'optimiser la politique, il est nécessaire de spécifier la dynamique pour calculer la fonction état-valeur par Eq. (7). Dans notre algorithme, la dynamique GMM a été utilisée pour le calcul de la fonction état-valeur. Ainsi, l'algorithme est entièrement piloté par les données sans aucune simulation, ce qui est différent des autres méthodes telles que l'approche "sim-to-real"39,40. Cependant, la dynamique GMM ne peut prédire de manière fiable la dynamique réelle qu'au voisinage des trajectoires d'entraînement. Par conséquent, nous avons proposé une méthode pour optimiser la politique près des trajectoires de formation, où la dynamique GMM prédit de manière fiable la dynamique réelle, et obtient une politique qui peut être transférée à la croissance réelle des cristaux FZ. Pour rechercher l'espace politique à proximité des trajectoires de formation, nous avons d'abord effectué une préformation pour rapprocher la politique des trajectoires de formation. Deuxièmement, nous avons introduit l'erreur des séquences d'action moyennées dans la fonction de récompense en plus de l'erreur de la trajectoire idéale dans le diamètre \(\left( {d_{t}^{ideal} } \right)\). La fonction de récompense utilisée dans notre algorithme proposé est la suivante :

\(\overline{{{\varvec{a}}_{{\varvec{t}}}^{\user2{*}} }}\) et \(\lambda\) désignent les séquences d'action moyennes des trajectoires d'entraînement et un poids.

Pour valider le contrôle automatisé de la croissance des cristaux FZ par l'algorithme utilisant PPO avec la dynamique GMM, nous avons préparé des ensembles de données pour la formation (\(D = \left\{ {\left( {{\varvec{s}}_{{\varvec{ t}}}^{\user2{*}} ,{\varvec{a}}_{{\varvec{t}}}^{\user2{*}} } \right)_{1} ,\left( {{\varvec{s}}_{{\varvec{t}}}^{\user2{*}} ,{\varvec{a}}_{{\varvec{t}}}^{\user2{* }} } \right)_{2} , \ldots ,\left( {{\varvec{s}}_{{\varvec{t}}}^{\user2{*}} ,{\varvec{a} }_{{\varvec{t}}}^{\user2{*}} } \right)_{N} } \right\}\), où N est le nombre d'ensembles de données d'entraînement) à l'aide d'un programme d'émulation pour la croissance cristalline FZ avec un ensemble donné de dynamique34. Nous avons préparé 12 ensembles de données visant à créer une forme cristalline idéale \(\left({d_{t}^{ideal} } \right)\) comme le montre la Fig. 2a en considérant le processus de striction pour la croissance d'un monocristal. Les figures 2b à d montrent les ensembles de données préparés visant à créer la forme idéale. Les trajectoires étaient différentes les unes des autres et ne suivaient pas parfaitement la forme idéale, car elles étaient préparées manuellement.

(a) Une trajectoire idéale pour le diamètre du cristal, (b) des trajectoires du diamètre pour la formation, et (c, d) des trajectoires de fonctionnement de la puissance et de la vitesse de déplacement de l'alimentation.

Avant l'apprentissage par renforcement, nous avons construit un modèle de prédiction basé sur les données pour la croissance des cristaux FZ par GMM, comme nous l'avons signalé précédemment34. Le nombre de mélanges gaussiens, qui est un hyper-paramètre de GMM, a été fixé à 50. Comme la prédiction de la dynamique par GMM n'est fiable qu'à proximité des trajectoires d'entraînement, la précision de la prédiction est significativement moins bonne lorsque les trajectoires s'écartent fortement de la trajectoire idéale telle que discutée dans la section "Résultats et discussion", en particulier en montrant la Fig. 4 en détail. Si nous commençons à optimiser avec la politique par défaut aléatoire, les séquences d'états générées par GMM seront loin des séquences d'états réelles et n'atteindront pas la trajectoire idéale illustrée à la figure 2a. Ainsi, nous avons effectué un pré-entraînement en utilisant les trajectoires d'entraînement avant optimisation de la politique par PPO. Dans la pré-formation, la politique a été entraînée pour se rapprocher des séquences d'action moyennées des trajectoires d'entraînement. La fonction de perte suivante est minimisée dans le pré-apprentissage :

où σ et \(\hat{\user2{\mu }}_{{{\varvec{\theta}}_{{\varvec{p}}} }} \left( {{\varvec{s}}_ {{\varvec{t}}} } \right)\) représentent le paramètre de variance et les valeurs moyennes prévues des valeurs d'entrée sous l'état \({\varvec{s}}_{{\varvec{t}}}^ {\user2{*}}\) dans une trajectoire d'entraînement. \(\hat{\user2{\mu }}_{{{\varvec{\theta}}_{{\varvec{p}}} }} \left( {{\varvec{s}}_{{\ varvec{t}}} \right)\) et \(\hat{V}_{{{\varvec{\theta}}_{{\varvec{v}}} }} \left( {{\varvec {s}}_{{\varvec{t}}} } \right)\) sont modélisés par des réseaux de neurones. Le nombre, le numéro de nœud et la fonction d'activation des couches cachées sont respectivement 2, 64 et la tangente hyperbolique (tanh). Une fonction sigmoïde est utilisée comme fonction d'activation de la couche de sortie du réseau de politique, et la couche de sortie des réseaux de la fonction état-valeur n'a pas de fonction d'activation. Les deux réseaux partagent des valeurs de pondération, à l'exception des couches de sortie. L'entraînement des réseaux de neurones a été effectué par la méthode Adam avec un taux d'apprentissage de 1 × 10–5 et une taille de lot de 12841. La politique probabiliste a été générée par le \(\hat{\user2{\mu }}_{{ {\varvec{\theta}}_{{\varvec{p}}} }} \left( {{\varvec{s}}_{{\varvec{t}}} } \right)\) et les paramètres de variance .

L'algorithme détaillé de pré-formation de la politique et de la fonction de valeur d'état est présenté dans l'algorithme 1. Après la pré-formation de la politique, la politique a été optimisée par PPO tout en maximisant l'objectif indiqué dans l'équation. (8). Les hyper-paramètres utilisés pour la pré-formation et la formation par PPO sont résumés dans le tableau 1. Notre programme sur PPO pour la trajectoire de croissance cristalline FZ est téléchargé dans GitHub42.

La figure 3 montre les résultats du contrôle automatisé par la politique formée avec notre algorithme proposé. Notons que l'apprentissage de la politique a été effectué par la dynamique prédite par GMM à partir des seules trajectoires d'apprentissage. La trajectoire obtenue suit bien la trajectoire idéale en diamètre. Le tableau 2 résume l'erreur quadratique moyenne (MSE) de la trajectoire idéale en diamètre d pour le contrôle par PPO et par l'homme (trajectoires d'entraînement). L'écart par rapport à la trajectoire idéale pour le contrôle par PPO est plus faible que celui pour le contrôle humain. Nous avons construit avec succès un algorithme de contrôle pour la croissance cristalline FZ avec une forme idéale définie à partir de plusieurs trajectoires d'entraînement.

Trajectoire du diamètre générée par le modèle de contrôle formé par notre algorithme proposé.

La préformation de la politique avant l'OPP est d'une importance cruciale. Sans formation préalable, l'apprentissage de la politique ne progresse jamais du tout. La figure 4 montre l'évolution de l'erreur absolue moyenne à partir de la trajectoire idéale en diamètre d pendant l'entraînement commençant après le préentraînement et avec des valeurs initiales fixées au hasard. Avec la pré-formation, la politique était bien formée et l'erreur diminuait avec l'augmentation de l'itération et devenait saturée. D'autre part, l'erreur de la trajectoire idéale n'a jamais diminué avec l'augmentation de l'itération sans pré-entraînement. De plus, l'erreur de la dynamique GMM par rapport à la vraie dynamique le long de la trajectoire générée était systématiquement plus élevée sans pré-entraînement qu'après le pré-entraînement. Ces résultats indiquent que l'espace politique a été recherché de manière appropriée avec la dynamique GMM avec une grande précision après la pré-formation.

( a ) Erreur absolue moyenne (MAE) de la trajectoire idéale et ( b ) MAE de la dynamique GMM le long de la trajectoire générée pendant l'entraînement avec et sans pré-entraînement.

La conception de la fonction de récompense, en ajoutant l'erreur des séquences d'action moyennées en plus de l'erreur de la trajectoire idéale, est également importante pour l'optimisation de la politique. Sans le second terme de l'Eq. (11), l'écart par rapport à la trajectoire idéale est plus grand que notre récompense proposée montrée dans l'équation. (11), notamment autour de t = 400 et t > 600 (Fig. 5a). Dans ces périodes, l'erreur de la dynamique GMM pour la trajectoire générée par la récompense sans le second terme de l'Eq. (11) est supérieur à celui de la trajectoire générée par notre fonction de récompense (Fig. 5b). Ces résultats indiquent que l'ajout du second terme dans l'Eq. (11) réussit à optimiser la politique avec la dynamique GMM avec une grande précision en définissant correctement la fonction de récompense.

(a) Erreurs absolues de la trajectoire idéale et (b) erreurs absolues de la dynamique GMM le long de la trajectoire générée avec et sans le deuxième terme de l'Eq. (11) dans la fonction de récompense.

La démonstration actuelle montre que le contrôle automatisé de la croissance des cristaux FZ est possible par notre méthode proposée à partir d'un petit nombre de trajectoires de démonstration. Puisque nos méthodes déterminent la politique en fonction de la dynamique prédite par GMM, il est nécessaire de rapprocher la trajectoire générée de la trajectoire de démonstration lors de l'optimisation de la politique. La pré-formation de la politique et la conception appropriée de la fonction de récompense réussissent à optimiser la politique par la dynamique GMM dans des marges de prédiction fiables. Notre méthode proposée pourra être appliquée à d'autres processus de matériaux qui nécessitent un contrôle adaptatif en fonction de l'état du processus. Bien que la présente démonstration soit basée sur des données obtenues par un programme d'émulation, notre méthodologie proposée fonctionnera avec la croissance réelle des cristaux FZ.

Nous avons construit un modèle de contrôle pour la croissance cristalline FZ par apprentissage par renforcement en utilisant PPO avec une dynamique prédite par GMM. Notre méthode proposée est entièrement basée sur les données et peut construire le modèle de contrôle à partir d'un petit nombre de trajectoires de démonstration seulement. Nous avons vérifié notre méthode par une expérience virtuelle en utilisant le programme émulateur de croissance cristalline FZ. En conséquence, le modèle de contrôle s'est révélé fonctionner plus précisément pour suivre une trajectoire idéale en diamètre de fusion que les trajectoires de démonstration créées par une opération humaine. Puisque nos méthodes déterminent la politique en fonction de la dynamique prédite par GMM, il est nécessaire de rapprocher la trajectoire générée de la trajectoire de démonstration lors de l'optimisation de la politique. Le pré-entraînement de la politique à proximité des trajectoires d'entraînement et la conception appropriée de la fonction de récompense ont permis d'optimiser avec succès la politique par la dynamique GMM dans des marges de prédiction fiables. Notre méthode proposée conduira à l'automatisation du traitement des matériaux dans lequel un fonctionnement adaptatif est requis et aidera à atteindre une productivité élevée dans la fabrication des matériaux. On s'attend à ce que le processus réel de croissance cristalline FZ puisse être automatisé à partir d'un petit nombre de trajectoires de démonstration opérées par l'homme.

Les données à l'appui des conclusions de cette étude sont disponibles auprès de l'auteur correspondant, SH, sur demande raisonnable.

Tsunooka, Y. et al. Prédiction à grande vitesse de la simulation numérique de la dynamique des fluides dans la croissance cristalline. CrystEngComm 20, 47 (2018).

Article Google Scholar

Dropka, N. & Holena, M. Optimisation de la solidification directionnelle magnétique du silicium à l'aide de réseaux de neurones artificiels et de modèles de processus gaussiens. J. Crist. Croissance 471, 53–61 (2017).

Article ADS CAS Google Scholar

Wang, L. et al. Contrôle optimal de la croissance des cristaux de SiC dans le système RF-TSSG à l'aide de l'apprentissage par renforcement. Crystals (Bâle) 10, 791 (2020).

Article CAS Google Scholar

Takehara, Y., Sekimoto, A., Okano, Y., Ujihara, T. & Dost, S. Optimisation bayésienne pour un taux de croissance cristallin élevé et uniforme dans le processus de croissance de solution ensemencée de carbure de silicium sous magnétique appliqué rotation des champs et des semences. J. Crist. Croissance 532, 125437 (2020).

Article CAS Google Scholar

Wang, C., Tan, XP, Tor, SB & Lim, CS Apprentissage automatique dans la fabrication additive : état de l'art et perspectives. Ajouter. Fab. 36, 101538 (2020).

Google Scholar

Yu, W. et al. Conception géométrique d'un système de croissance cristalline guidée par un algorithme d'apprentissage automatique. CrystEngComm 23, 2695–2702 (2021).

Article CAS Google Scholar

Kawata, A., Murayama, K., Sumitani, S. & Harada, S. Conception d'un algorithme de détection automatique pour les contrastes de dislocation dans les images de biréfringence des tranches de SiC. Jpn. J. Appl. Phys. 60, SBBD06 (2021).

Article Google Scholar

Harada, S., Tsujimori, K. & Matsushita, Y. Détection automatique des dislocations du plan basal dans une tranche épitaxiale de SiC de 150 mm par imagerie par photoluminescence et algorithme d'appariement de modèles. J. Électron. Mater. 52, 1243-1248 (2022).

Google Scholar

Tsujimori, K., Hirotani, J. & Harada, S. Application de la super-résolution bayésienne aux données spectroscopiques pour une caractérisation précise de la forme du pic spectral. J. Électron. Mater. 51, 712–717 (2022).

Article ADS CAS Google Scholar

Dropka, N., Holena, M., Ecklebe, S., Frank-Rotsch, C. et Winkler, J. Prévision rapide du processus de croissance des cristaux de VGF par des réseaux de neurones dynamiques. J. Crist. Croissance 521, 9–14 (2019).

Article ADS CAS Google Scholar

Dang, Y. et al. Contrôle de processus adaptatif pour la croissance cristalline utilisant l'apprentissage automatique pour la prédiction à grande vitesse : application à la croissance de solutions SiC. CristEngComm 23, 1982–1990 (2021).

Article CAS Google Scholar

Isono, M. et al. Optimisation de la distribution des flux par description topologique et apprentissage automatique dans la croissance de solutions de SiC. Adv. Théorie Simul. 5, 202200302 (2022).

Article Google Scholar

Honda, T. et al. Expérimentations virtuelles par deep learning sur des matériaux tangibles. Commun. Mater. 2, 1–8 (2021).

Article Google Scholar

Shimizu, R., Kobayashi, S., Watanabe, Y., Ando, ​​Y. & Hitosugi, T. Synthèse autonome de matériaux par apprentissage automatique et robotique. Maître APL. 8, 111110 (2020).

Article ADS CAS Google Scholar

Miyagawa, S., Gotoh, K., Kutsukake, K., Kurokawa, Y. & Usami, N. Application de l'optimisation bayésienne pour améliorer les performances de passivation dans l'hétérostructure TiOx/SiOy/c-Si par traitement au plasma d'hydrogène. Appl. Phys. Express 14, 025503 (2021).

Article ADS CAS Google Scholar

Osada, K. et al. Optimisation bayésienne adaptative pour la croissance épitaxiale de couches minces de silicium sous diverses contraintes. Mater. Aujourd'hui Commun. 25, 101538 (2020).

Article CAS Google Scholar

Wakabayashi, YK et al. Croissance de couches minces assistée par apprentissage automatique : Optimisation bayésienne dans l'épitaxie par jet moléculaire de couches minces de SrRuO3. Maître APL. 7, 101114 (2019).

Annonces d'article Google Scholar

Campbell, TA, Schweizer, M., Dold, P., Cröll, A. & Benz, KW Croissance et caractérisation de la zone flottante de monocristaux Ge1−xSix (x ⩽10 at%). J. Crist. Croissance 226, 231-239 (2001).

Article ADS CAS Google Scholar

Calverley, A. & Lever, RF La fusion en zone flottante de métaux réfractaires par bombardement électronique. J. Sci. Instrument. 34, 142 (1957).

Article ADS CAS Google Scholar

Inui, H., Oh, MH, Nakamura, A. & Yamaguchi, M. Déformation en traction à température ambiante de cristaux polysynthétiquement maclés (PST) de TiAl. Acta Métall. Mater. 40, 3095-3104 (1992).

Article CAS Google Scholar

Hirano, T. & Mawari, T. Solidification unidirectionnelle de Ni3Al par une méthode de zone flottante. Acta Métall. Mater. 41, 1783–1789 (1993).

Article CAS Google Scholar

Balbashov, AM & Egorov, SK Appareil pour la croissance de monocristaux de composés oxydes par fusion en zone flottante avec chauffage par rayonnement. J. Crist. Croissance 52, 498–504 (1981).

Article ADS CAS Google Scholar

Koohpayeh, SM, Fort, D. & Abell, JS La technique de la zone flottante optique : un examen des procédures expérimentales avec une référence particulière aux oxydes. Programme. Crist. Caractère de croissance. Mater. 54, 121-137 (2008).

Article CAS Google Scholar

Harada, S. et al. Passage de la conduction thermique incohérente à la conduction cohérente dans les super-réseaux naturels d'oxyde de titane massif. Scr. Mater. 208, 114326 (2022).

Article CAS Google Scholar

Christensen, AN La croissance cristalline des composés de métaux de transition TiC, TiN et ZrN par une technique de zone flottante. J. Crist. Croissance 33, 99–104 (1976).

Article ADS CAS Google Scholar

Nørlund Christensen, A. Croissance cristalline et caractérisation des siliciures de métaux de transition MoSi2 et WSi2. J. Crist. Croissance 129, 266-268 (1993).

Annonces d'article Google Scholar

Harada, S. et al. Raffinement de la structure cristalline de ReSi1.75 avec un arrangement ordonné de lacunes en silicium. Philos. Mag. 91, 3108–3127 (2011).

Article ADS CAS Google Scholar

Harada, S. et al. Observation directe des lacunes et des vibrations thermiques locales dans le siliciure de rhénium thermoélectrique. Appl. Phys. Express 5, 035203 (2012).

Annonces d'article Google Scholar

Muiznieks, A., Virbulis, J., Lüdge, A., Riemann, H. & Werner, N. Croissance de la zone flottante du silicium. dans Handbook of Crystal Growth: Bulk Crystal Growth: Second Edition vol. 2 241–279 (Elsevier, 2015).

Derby, JJ & Brown, RA Analyse thermique-capillaire de Czochralski et de la croissance cristalline de Czochralski encapsulée dans un liquide : I. Simulation. J. Crist. Croissance 74, 605–624 (1986).

Article ADS CAS Google Scholar

Mézière, J. et al. Modélisation et simulation de SiC CVD dans le concept de réacteur horizontal à parois chaudes. J. Crist. Croissance 267, 436–451 (2004).

Article ADS CAS Google Scholar

Karpov, SYu., Makarov, Yu. N. & Ramm, MS Simulation de croissance par sublimation de monocristaux de SiC. Physica Status Solidi (b) 202, 201–220 (2001).

3.0.CO;2-T" data-track-action="article reference" href="https://doi.org/10.1002%2F1521-3951%28199707%29202%3A1%3C201%3A%3AAID-PSSB201%3E3.0.CO%3B2-T" aria-label="Article reference 32" data-doi="10.1002/1521-3951(199707)202:13.0.CO;2-T">Annonces d'article Google Scholar

Dang, Y. et al. Étude numérique de l'évaporation de soluté dans la croissance cristalline à partir d'une solution : une étude de cas de croissance de SiC par la méthode TSSG. J. Crist. Croissance 579, 126448 (2022).

Article CAS Google Scholar

Omae, R., Sumitani, S., Tosa, Y. & Harada, S. Prédiction de la dynamique de fonctionnement dans la croissance cristalline à zone flottante à l'aide du modèle de mélange gaussien. Sci. Technol. Adv. Mater. Méthodes 2, 294–301 (2022).

Google Scholar

Schulman, J., Wolski, F., Dhariwal, P., Radford, A. & Openai, OK Algorithmes d'optimisation de politique proximale. https://doi.org/10.48550/archiv.1707.06347 (2017).

Schulman, J., Levine, S., Abbeel, P., Jordan, M. & Moritz, P. Optimisation des politiques régionales de confiance. Proc. Mach. Apprendre. Rec. 37, 1889–1897 (2015).

Google Scholar

Sutton, RS, McAllester, D., Singh, S. & Mansour, Y. Méthodes de gradient de politique pour l'apprentissage par renforcement avec approximation de fonction. Adv. Information neuronale. Processus. Syst. 12, 447 (1999).

Google Scholar

Mnih, V. et al. Méthodes asynchrones pour l'apprentissage par renforcement profond. 33e Conférence internationale sur l'apprentissage automatique, ICML 2016 4, 2850–2869 (2016).

Christiano, P. et al. Transfert de la simulation au monde réel grâce à l'apprentissage d'un modèle de dynamique inverse profond. https://doi.org/10.48550/arxiv.1610.03518 (2016).

Peng, XB, Andrychowicz, M., Zaremba, W. & Abbeel, P. Transfert Sim-to-real du contrôle robotique avec randomisation dynamique. Proc. IEEE Int. Conf. Robot. Autom. https://doi.org/10.1109/ICRA.2018.8460528 (2017).

Article Google Scholar

Kingma, DP & Ba, JL Adam : Une méthode d'optimisation stochastique. 3e Conférence internationale sur les représentations de l'apprentissage, ICLR 2015 - Conference Track Proceedings (2014) doi:https://doi.org/10.48550/arxiv.1412.6980.

https://github.com/AnamorResearch/fz_rl

Télécharger les références

Cet article a été soutenu par JSPS KAKENHI Grant Number JP21H01681. Les auteurs remercient M. Okuno et ses collègues de Sanko Co. Ltd. pour des discussions fructueuses sur l'application des fours de croissance cristalline FZ réels.

Réseaux d'anamorphose, 50 Higashionmaeda-Cho, Nishishichijo, Shimogyo-Ku, Kyoto, 600-8898, Japon

Yusuke Tosa, Ryo Omae, Ryohei Matsumoto & Shogo Sumitani

Centre de recherche intégrée sur l'électronique du futur (CIRFE), Institut des matériaux et systèmes pour la durabilité (IMaSS), Université de Nagoya, Furo-Cho, Chikusa-Ku, Nagoya, 464-8601, Japon

Shunta Harada

Département de génie des procédés des matériaux, Université de Nagoya, Furo-Cho, Chikusa-Ku, Nagoya, 464-8603, Japon

Shunta Harada

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

SH et SS ont conceptualisé l'idée de base et l'application au processus des matériaux. YT a construit un algorithme et des programmes d'analyse sous la direction de SS avec l'aide de RO et en discussion continue avec tous les auteurs. Le manuscrit a été écrit par SH et YT en discussion avec tous les autres auteurs.

Correspondance avec Shunta Harada.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournir un lien vers la licence Creative Commons et indiquer si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Tosa, Y., Omae, R., Matsumoto, R. et al. Algorithme de contrôle automatisé basé sur les données pour la croissance cristalline de la zone flottante dérivée de l'apprentissage par renforcement. Sci Rep 13, 7517 (2023). https://doi.org/10.1038/s41598-023-34732-5

Télécharger la citation

Reçu : 07 mars 2023

Accepté : 06 mai 2023

Publié: 09 mai 2023

DOI : https://doi.org/10.1038/s41598-023-34732-5

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.