2025/04/01 更新

写真a

ホシノ テツヤ
星野 哲也
HOSHINO Tetsuya
所属
情報基盤センター データサイエンス研究部門 准教授
大学院担当
大学院情報学研究科
職名
准教授

研究分野 1

  1. 情報通信 / 高性能計算

経歴 2

  1. 名古屋大学   情報基盤センター   准教授

    2023年1月 - 現在

  2. 東京大学   情報基盤センター   助教

    2016年1月 - 2022年12月

 

論文 26

  1. Azure CycleCloud利用環境の調査とスパコンセンター・クラウド連携に関する考察

    永井 亨, 五十木 秀一, 河合 直聡, 片桐 孝洋, 星野 哲也

    学術情報処理研究   28 巻 ( 1 ) 頁: 114 - 124   2024年11月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人 大学ICT推進協議会  

    <p>パブリッククラウド利用環境の調査を主な目的としてMicrosoft Azureを対象にした仮想マシンの性能測定を行った.具体的には名古屋大学情報基盤センターと日本マイクロソフト社との共同研究のもとでHPC利用環境に特化したAzure CycleCloudを使用して種々のベンチマークプログラムを仮想マシン上で実行した.本稿ではAzure CycleCloudの利用環境と仮想マシン上でのベンチマークテスト結果について報告し,スーパーコンピュータセンターとパブリッククラウドの連携について考察する.</p>

    DOI: 10.24669/jacn.28.1_114

    CiNii Research

  2. Auto-Tuning Mixed-Precision Computation by Specifying Multiple Regions

    Ren, XZB; Kawai, M; Hoshino, T; Katagiri, T; Nagai, T

    CONCURRENCY AND COMPUTATION-PRACTICE & EXPERIENCE   37 巻 ( 2 )   2024年11月

     詳細を見る

    掲載種別:研究論文(学術雑誌)   出版者・発行元:Concurrency and Computation: Practice and Experience  

    Mixed-precision computation is a promising method for substantially improving high-performance computing applications. However, using mixed-precision data is a double-edged sword. While it can improve computational performance, the reduction in precision introduces more uncertainties and errors. As a result, precision tuning is necessary to determine the optimal mixed-precision configurations. Much effort is therefore spent on selecting appropriate variables while balancing execution time and numerical accuracy. Auto-tuning (AT) is one of the technologies that can assist in alleviating this intensive task. In recent years, ppOpen-AT, an AT language, introduced a directive for mixed-precision tuning called “Blocks.” In this study, we investigated an AT strategy for the “Blocks” directive for multi-region tuning of a program. The non-hydrostatic icosahedral atmospheric model (NICAM), a global cloud-resolving model, was used as a benchmark program to evaluate the effectiveness of the AT strategy. Experimental results indicated that when a single region of the program performed well in mixed-precision computation, combining these regions resulted in better performance. When tested on the supercomputer “Flow” Type I (Fujitsu PRIMEHPC FX1000) and Type II (Fujitsu PRIMEHPC CX1000) subsystems, the mixed-precision NICAM benchmark program tuned by the AT strategy achieved a speedup of nearly 1.31× on the Type I subsystem compared to the original double-precision program, and a 1.12× speedup on the Type II subsystem.

    DOI: 10.1002/cpe.8326

    Web of Science

    Scopus

  3. Optimize Efficiency of Utilizing Systems by Dynamic Core Binding

    Kawai M., Ida A., Hanawa T., Hoshino T.

    ACM International Conference Proceeding Series     頁: 77 - 82   2024年

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:ACM International Conference Proceeding Series  

    Load balancing at both the process and thread levels is imperative for minimizing application computation time in the context of MPI/OpenMP hybrid parallelization. This necessity arises from the constraint that, within a typical hybrid parallel environment, an identical number of cores is bound to each process. Dynamic Core Binding, however, adjusts the core binding based on the process’s workload, thereby realizing load balancing at the core level. In prior research, we have implemented the DCB library, which has two policies for computation time reduction or power reduction. In this paper, we show that the two policies provided by the DCB library can be used together to achieve both computation time reduction and power consumption reduction.

    DOI: 10.1145/3636480.3637221

    Scopus

    その他リンク: https://dblp.uni-trier.de/db/conf/hpcasia/hpcasia2024w.html#KawaiIHH24

  4. FMOプログラムABINIT-MPの整備状況2023

    望月 祐志, 中野 達也, 坂倉 耕太, 奥脇 弘次, 土居 英男, 加藤 季広, 滝沢 寛之, 成瀬 彰, 大島 聡史, 星野 哲也, 片桐 孝洋

      23 巻 ( 1 ) 頁: 4 - 8   2024年

     詳細を見る

    記述言語:日本語   出版者・発行元:日本コンピュータ化学会  

    <p>In August 2023, we released the latest version of our ABINIT-MP program, Open Version 2 Revision 8. In this version, the most commonly used FMO-MP2 calculations are even faster than in the previous Revision 4. It is now also possible to calculate excitation and ionization energies for regions of interest. Improved interaction analysis is also available. In addition, we have started GPU-oriented modifications. In this preliminary report, we present the current status of ABINIT-MP.</p>

    DOI: 10.2477/jccj.2024-0001

    CiNii Research

  5. Adaptation of XAI to Auto-tuning for Numerical Libraries Open Access

    Aoki S., Katagiri T., Ohshima S., Kawai M., Nagai T., Hoshino T.

    Proceedings - 2024 IEEE 17th International Symposium on Embedded Multicore/Many-core Systems-on-Chip, MCSoC 2024     頁: 556 - 563   2024年

     詳細を見る

    出版者・発行元:Proceedings - 2024 IEEE 17th International Symposium on Embedded Multicore/Many-core Systems-on-Chip, MCSoC 2024  

    The unregulated utilization of Artificial Intelligence (AI) outputs, potentially leading to various societal issues, has received considerable attention. While humans routinely validate information, manually inspecting the vast volumes of AI-generated results is impractical. Therefore, automation and visualization are imperative. In this context, Explainable AI (XAI) technology is gaining prominence, aiming to streamline AI model development and alleviate the burden of explaining AI outputs to users. Simultaneously, software Auto-Tuning (AT) technology has emerged for reducing the man-hours required for performance tuning in numerical calculations. AT is a potent tool for cost reduction during parameter optimization and high-performance programming for numerical computing. The synergy between AT mechanisms and AI technology is noteworthy, with AI finding extensive applications in AT. However, applying AI to AT mechanisms introduces challenges in AI model explainability. This study focuses on XAI for AI models when integrated into two different processes for practical numerical computations: performance parameter tuning of accuracy-guaranteed numerical calculations and sparse iterative algorithm.

    DOI: 10.1109/MCSoC64144.2024.00095

    Scopus

▼全件表示

MISC 38

  1. ABINIT-MPプログラムの現状と今後 招待有り 査読有り

    望月 祐志, 中野 達也, 坂倉 耕太, 土居 英男, 奥脇 弘次, 加藤 季広, 滝沢 寛之, 大島 聡史, 星野 哲也, 片桐 孝洋  

    J. Comp. Chem. Jpn.23 巻 ( 4 ) 頁: 85 - 97   2024年12月

     詳細を見る

    記述言語:日本語   掲載種別:記事・総説・解説・論説等(学術雑誌)   出版者・発行元:日本コンピュータ化学会  

    <p>The fragment molecular orbital (FMO) program ABINIT-MP has a quarter-century history, and related research and development of the Open Version 2 series is currently underway. This paper first summarizes the current status of the latest Revision 8 (released on August 2023). It then describes future improvements and enhancements, including GPU support. The connection with coarse-grained simulation (dissipative particle dynamics) and the possibility of cooperation with quantum computation are also touched upon.</p>

    DOI: 10.2477/jccj.2024-0022

    Web of Science

    CiNii Research

  2. FMOプログラムABINIT-MPの整備状況2023 招待有り 査読有り

    望月 祐志, 中野 達也, 坂倉 耕太, 奥脇 弘次, 土居 英男, 加藤 季広, 滝沢 寛之, 成瀬 彰, 大島 聡史, 星野 哲也, 片桐 孝洋  

    J. Comp. Chem. Jpn.23 巻 ( 1 ) 頁: 4 - 8   2024年3月

     詳細を見る

    記述言語:日本語   掲載種別:速報,短報,研究ノート等(学術雑誌)   出版者・発行元:日本コンピュータ化学会  

    <p>In August 2023, we released the latest version of our ABINIT-MP program, Open Version 2 Revision 8. In this version, the most commonly used FMO-MP2 calculations are even faster than in the previous Revision 4. It is now also possible to calculate excitation and ionization energies for regions of interest. Improved interaction analysis is also available. In addition, we have started GPU-oriented modifications. In this preliminary report, we present the current status of ABINIT-MP.</p>

    DOI: 10.2477/jccj.2024-0001

    CiNii Research

  3. HPCカーネルベンチマークによるSapphire Rapids HBMの性能評価

    星野哲也, 河合直聡, 伊田明弘, 塙敏博, 片桐孝洋  

    情報処理学会研究報告(Web)2024 巻 ( HPC-193 )   2024年

     詳細を見る

  4. CPU・GPU並列プログラミング入門(4)

    星野哲也, 中島研吾, 中島研吾  

    シミュレーション43 巻 ( 1 )   2024年

     詳細を見る

  5. WaitIO+MPI Hybridによる異種システム間でのAllreduceの高速化

    植野貴大, 住元真司, 中島研吾, 中島研吾, 片桐孝洋, 大島聡史, 星野哲也, 河合直聡, 永井亨  

    情報処理学会研究報告(Web)2024 巻 ( HPC-196 )   2024年

     詳細を見る

▼全件表示

科研費 5

  1. 低ランク構造行列法の適用範囲拡大と多様な計算アーキテクチャの活用

    研究課題/研究課題番号:24K02949  2024年4月 - 2027年3月

    日本学術振興会  科学研究費助成事業  基盤研究(B)

    伊田 明弘, 横田 理央, 塙 敏博, 岩下 武史, 大島 聡史, 星野 哲也, 平石 拓, 河合 直聡, 横田 理央, 塙 敏博, 岩下 武史, 大島 聡史, 星野 哲也, 平石 拓, 河合 直聡

      詳細を見る

    担当区分:研究分担者 

    本研究では、低ランク構造行列法ライブラリの高機能化を実施する。科学技術計算では、密行列演算に基づく計算手法の数値線形代数ライブラリが広く利用されいる。密行列演算から低ランク構造行列演算へ置き換えが行えるように、低ランク構造行列法の適用範囲を拡大する。低ランク構造行列に基づく新たな数値計算アルゴリズムを開発する。アルゴリズム開発は、GPU・FPGAなど最新の計算機アーキテクチャで構成されるクラスタ計算機を意識し、実装の最適化を行う。様々な低ランク構造行列の演算に対し、最適な計算機アーキテクチャを割当て、混合精度演算・動的負荷分散なども活用し、計算機の性能を最大限に引き出す実装法を研究する。

  2. 実アプリケーションの時空間ブロッキングによる高速化に関する研究

    研究課題/研究課題番号:22K17898  2022年4月 - 2024年3月

    日本学術振興会  科学研究費助成事業  若手研究

    星野 哲也

      詳細を見る

    担当区分:研究代表者 

    配分額:1430000円 ( 直接経費:1100000円 、 間接経費:330000円 )

    スーパーコンピュータに搭載される最新世代のCPUは大きな共有キャッシュを有し、これを効率的に利用する最適化手法として知られる時空間ブロッキングは、科学・工学分野のシミュレーションで頻出するステンシル計算を高速化するための手法である。しかし時空間ブロッキングは煩雑なプログラミングを要求するため、実アプリケーションへの応用は進んでいない。本研究課題では、比較的簡単なコード変換によって実現可能ながら、大容量の共有キャッシュメモリを用いることで高効率実行が可能なoverlapped方式の時空間ブロッキング手法に着目し、様々なCPUにおける性能モデリング及び実アプリケーションでの有効性の検証を行う。
    微分方程式を解析的に解く際に生じる時・空間の離散格子に対する特定の計算パターンはステンシル計算と呼ばれ、様々な流体シミュレーションにおいて頻出する重要なカーネルである。ステンシル計算の高速化は盛んに研究されており、時空間ブロッキング手法はその一手法であるが、非常に煩雑なプログラミングを要求するため、実アプリケーションへの適用例はほとんどない。さらに、時空間ブロッキングの性能は実行するプロセッサの性能パラメータに大きく依存するため、人手によって最適化することは現実的ではない。そこで本研究では時空間ブロッキングの自動最適化に必要な性能モデリングを、最新のCPUを用いて行った。
    本研究では、主にHigh Bandwidth Memory(HBM)を搭載した最新のCPUである、富岳スパコンのA64FXや、Intel Xeon Sapphire Rapids世代のCPUを用いて、性能モデル化を進めた点に大きな価値がある。時空間ブロッキング手法はその性質上、特にメインメモリの性能とラストレベルキャッシュの性能比に性能が大きく依存する。この性能比はHBMの登場によって既存のCPUと大きく変化し、本研究では性能モデルによってその影響を明らかにしたことが、高性能計算分野において意義のある成果である。また当初想定していなかった、命令レイテンシの影響を明らかにした点も意義がある。

  3. 格子H行列に基づく数値線形代数の構築と最新アーキテクチャへの高性能実装法

    研究課題/研究課題番号:21H03447  2021年4月 - 2024年3月

    日本学術振興会  科学研究費助成事業  基盤研究(B)

    伊田 明弘, 横田 理央, 塙 敏博, 岩下 武史, 大島 聡史, 星野 哲也, 平石 拓, 横田 理央, 塙 敏博, 岩下 武史, 大島 聡史, 星野 哲也, 平石 拓

      詳細を見る

    担当区分:研究分担者 

    格子H行列を用いた数値線形代数系の構築を目的とし、固有値計算、LU分解、QR分解などを実行する新しいアルゴリズムの研究・開発を行った。多くの成果が得られた中でも、主要なものとして、BLR(Block Low-Rank)行列の固有値計算法が挙げられる。格子H行列の特殊な場合であるBLR行列について、全固有値を計算するアルゴリズムを開発した。開発したアルゴリズムの計算複雑度を、BLR行列を特徴付ける行列サイズ・ブロックサイズ・各ブロックの階数(ランク)を変数として見積り、最適な条件を検討した。最適条件下で提案アルゴリズムの計算量が従来の密行列の場合に比べて大幅に低減させられることを理論的に示した。また、数値実験を用いて、計算時間が理論通り計算量に比例すること、および、固有値と固有ベクトルの誤差が階数を増やすにつれて密行列に近づいていくことを確かめた。
    格子H行列法の適用範囲の拡大に取り組んだ。従来、格子H行列を含む低ランク構造行列法は境界要素解析(時間項を含まない空間領域の積分方程式法)への適用が想定されていた。時空間領域積分方程式法に適用範囲を拡張すべく、FDP(Fast Domain Partitioning)法と格子H行列法を組み合わせた手法を開発し、従来手法の計算量を開発手法では大幅に低減させられることを理論的に示した。さらに、3次元弾性波動伝播解析を提案手法で行う計算コードを開発し、理論に近い計算時間で解析が行えることを確かめた。
    格子H行列法の高性能実装に関する研究においても多くの成果が得られた。主要な成果としては、タスク並列言語Tascellを拡張し、分散メモリ環境における行列分割構造生成の並列実装を提案した。3次元電場解析に対する約1億要素を用いた数値実験において、最大8ノード×36ワーカーで良好な高速化を達成した。

  4. 余剰コアを活用する高性能計算・データ解析支援

    研究課題/研究課題番号:20H00580  2020年4月 - 2023年3月

    日本学術振興会  科学研究費助成事業  基盤研究(A)

    塙 敏博, 下川辺 隆史, 星野 哲也, 三木 洋平, 伊田 明弘, 下川辺 隆史, 星野 哲也, 三木 洋平, 伊田 明弘

      詳細を見る

    担当区分:研究分担者 

    ①ユーザプログラムを再コンパイルせずに、動的プロファイリングを実現する手法を検討した。SystemTapを用いて,測定したい関数部分に着目したプロファイル、OpenMP並列数の動的な変更をほぼオーバヘッドなく実現した。主計算と同時に他の処理を実行した際の影響を測定した。
    ②MPI+OpenMP並列化されたアプリケーションを効率的に動作させることを目指して、MPIプロセス毎に割り付けられるコア数(OpenMPスレッド数)をコントロールし、各コアの負荷を均一化する手法について検討した。検討手法をDCBライブラリとして実装し、アプリケーションから簡単なAPIコールのみで利用できるようにした。DCBライブラリを格子H行列法コードに適用し、15.5%の計算速度向上と8.0%の消費電力削減を実現した。
    ③In Situデータ解析の実現に向けた準備として,宇宙物理分野のアプリケーションにおいて時間進化の計算中に解析処理を実行する機能を追加した.特定条件を満たしたデータだけを高頻度に単一ファイルへと追加出力する機能も追加し,非同期ファイルIO機能の予備評価に利用可能にした。
    ④流体計算において頻出するステンシル計算は一般的にメモリ律速となることが知られており、余剰な演算器が発生しやすい演算パターンである。キャッシュメモリを利用し数ステップ分の演算をメモリに書き戻すことなく実行することで、余剰な演算器を活用する手法として知られるテンポラルブロッキングを3次元の拡散方程式カーネルに適用し、最新のプロセッサにおいて評価した結果,最大4.99倍の性能向上を実現した。
    ⑤ステンシル計算のうち局所的に高精細にできる適合格子細分化法(AMR法)では、データ構造の複雑さから通信が性能低下につながる。余剰コアを活用するという観点からテンポラルブロッキングを最新のプロセッサで効率的に利用する方法について検討を進めた。

  5. アプリケーションのデータ構造に着目したメニーコア向け自動最適化フレームワーク

    研究課題/研究課題番号:16H06679  2016年8月 - 2018年3月

    日本学術振興会  科学研究費助成事業  研究活動スタート支援

    星野 哲也

      詳細を見る

    近年増加傾向にあるメニーコアプロセッサを用いた計算環境において、その性能を引き出すためにはVector Processing Unit (VPU)を効率良く利用することが重要である。しかし、VPUの効率的な利用にはハードウェアやコンパイラに関する知識が必要であり、またプログラムのデータ構造の変更などが往々にして必要となる。
    本研究では、データ構造を抽象化するためのコンパイラ指示文の提案と、その指示文を解釈するトランスレータの開発、自動ベクトル化を促進するフレームワークデザインの提案と、そのデザインに則った境界要素法向けのフレームワークの開発を行った。

 

担当経験のある科目 (本学) 3

  1. 大規模計算特論B

    2023

  2. 大規模並列数値計算特論

    2023

  3. プログラミング2

    2023

 

社会貢献活動 1

  1. 最近のFortran向けGPUプログラミング事情(JAXA内部講習会)

    役割:講師

    2023年12月

学術貢献活動 2

  1. HPC Asia 2024 Local Arrangement Chair

    役割:企画立案・運営等

    2024年1月

     詳細を見る

    種別:学会・研究会等 

  2. xSIG 2023 プログラム委員

    役割:査読

    2023年8月

     詳細を見る

    種別:査読等