Updated on 2024/04/27

写真a

 
HOSHINO Tetsuya
 
Organization
Information Technology Center High Performance Computing division Associate professor
Graduate School
Graduate School of Informatics
Title
Associate professor

Research Areas 1

  1. Informatics / High performance computing

Research History 2

  1. Nagoya University   Information Technology Center   Associate professor

    2023.1

  2. The University of Tokyo   Information Technology Center   Assistant Professor

    2016.1 - 2022.12

 

Papers 19

  1. Optimize Efficiency of Utilizing Systems by Dynamic Core Binding.

    Masatoshi Kawai, Akihiro Ida, Toshihiro Hanawa, Tetsuya Hoshino

    HPC Asia Workshops     page: 77 - 82   2024

     More details

    Publishing type:Research paper (international conference proceedings)  

    DOI: 10.1145/3636480.3637221

    Scopus

    Other Link: https://dblp.uni-trier.de/db/conf/hpcasia/hpcasia2024w.html#KawaiIHH24

  2. Development Status of ABINIT-MP in 2023

    MOCHIZUKI Yuji, NAKANO Tatsuya, SAKAKURA Kota, OKUWAKI Koji, DOI Hideo, KATO Toshihiro, TAKIZAWA Hiroyuki, NARUSE Akira, OHSHIMA Satoshi, HOSHINO Tetsuya, KATAGIRI Takahiro

    Journal of Computer Chemistry, Japan   Vol. 23 ( 1 ) page: 4 - 8   2024

     More details

    Language:Japanese   Publisher:Society of Computer Chemistry, Japan  

    <p>In August 2023, we released the latest version of our ABINIT-MP program, Open Version 2 Revision 8. In this version, the most commonly used FMO-MP2 calculations are even faster than in the previous Revision 4. It is now also possible to calculate excitation and ionization energies for regions of interest. Improved interaction analysis is also available. In addition, we have started GPU-oriented modifications. In this preliminary report, we present the current status of ABINIT-MP.</p>

    DOI: 10.2477/jccj.2024-0001

    CiNii Research

  3. Implementation of Radio Wave Propagation using RT Cores and Consideration of Programming Models.

    Shinya Hashinoki, Satoshi Ohshima, Takahiro Katagiri, Toru Nagai, Tetsuya Hoshino

    IPDPS Workshops     page: 673 - 681   2023

     More details

    Publishing type:Research paper (international conference proceedings)  

    DOI: 10.1109/IPDPSW59300.2023.00115

    Web of Science

    Scopus

    Other Link: https://dblp.uni-trier.de/db/conf/ipps/ipdps2023w.html#HashinokiOKNH23

  4. Auto-Tuning Mixed-precision Computation by Specifying Multiple Regions

    Ren X., Kawai M., Hoshino T., Katagiri T., Nagai T.

    Proceedings - 2023 11th International Symposium on Computing and Networking, CANDAR 2023     page: 175 - 181   2023

     More details

    Publisher:Proceedings - 2023 11th International Symposium on Computing and Networking, CANDAR 2023  

    Mixed-precision computation is a promising method for substantially increasing the speed of numerical computations. However, using mixed-precision data is a double-edged sword. Although it can improve the computational performance, the reduction in precision brings more uncertainties and errors. It is necessary to determine which variables can be represented with a lower-precision format without affecting the accuracy of the results. Hence, much effort is spent on selecting appropriate variables while considering the execution time and numerical accuracy. Auto-Tuning (AT) is one of several technologies that can assist in eliminating this intensive work. In this study, we investigated an AT strategy for the 'Blocks' directive in the auto-Tuning language ppOpen-AT to tune multiple regions of a program and evaluated the effectiveness. A benchmark program of the nonhydrostatic icosahedral atmospheric model (NICAM), which is a global cloud resolving model, was considered as a study case. Experimental results indicated that when a single part of the program could perform well in the mixed-precision computation, a combination achieved a better performance. When used on the Flow Type I Subsystem (The Fujitsu PRIMEHPC FX1000), this method achieved almost 1.27× speedup compared with the NICAM benchmark program using all double-precision data.

    DOI: 10.1109/CANDAR60563.2023.00031

    Scopus

  5. Large-scale earthquake sequence simulations on 3D nonplanar faults using the boundary element method accelerated by lattice H-matrices

    So Ozawa, Akihiro Ida, Tetsuya Hoshino, Ryosuke Ando

    Geophysical Journal International     2022.10

     More details

    Publishing type:Research paper (scientific journal)   Publisher:Oxford University Press (OUP)  

    Summary

    Large-scale earthquake sequence simulations using the boundary element method (BEM) incur extreme computational costs through multiplying a dense matrix with a slip rate vector. Hierarchical matrices (H-matrices) have often been used to accelerate this multiplication. However, the complexity of the structures of the H-matrices and the communication costs between processors limit their scalability, and they therefore cannot be used efficiently in distributed memory computer systems. Lattice H-matrices have recently been proposed as a tool to improve the parallel scalability of H-matrices. In this study, we developed a method for earthquake sequence simulations applicable to 3D nonplanar faults with lattice H-matrices. We present a simulation example and verify the mesh convergence of our method for a 3D nonplanar thrust fault using rectangular and triangular discretizations. We also performed performance and scalability analyses of our code. Our simulations, using over ${10^5}$ degrees of freedom, demonstrated a parallel acceleration beyond ${10^4}$ MPI processors and a &amp;gt; 10-fold acceleration over the best performance when the normal H-matrices are used. Using this code, we can perform unprecedented large-scale earthquake sequence simulations on geometrically complex faults with supercomputers. The software is made an open-source and freely available.

    DOI: 10.1093/gji/ggac386

    arXiv

  6. Optimizations of H-matrix-vector Multiplication for Modern Multi-core Processors.

    Tetsuya Hoshino, Akihiro Ida, Toshihiro Hanawa

    CLUSTER     page: 462 - 472   2022

     More details

    Publishing type:Research paper (international conference proceedings)   Publisher:IEEE  

    DOI: 10.1109/CLUSTER51413.2022.00056

    Other Link: https://dblp.uni-trier.de/db/conf/cluster/cluster2022.html#HoshinoIH22

  7. Fortran標準規格do concurrentを用いたGPUオフローディング手法の評価

    星野 哲也, 塙 敏博

    情報処理学会研究報告(Web)   Vol. 2022-HPC-183   page: 1 - 8   2022

     More details

  8. A64FXにおける階層型行列演算の性能評価

    星野 哲也, 伊田 明弘, 塙 敏博

    情報処理学会研究報告(Web)   Vol. 2021-HPC-180   page: 1 - 8   2021

     More details

  9. Large-scale earthquake sequence simulations of 3D geometrically complex faults using the boundary element method accelerated by lattice H-matrices on distributed memory computer systems

    伊田 明弘, 星野 哲也

    arXiv preprint   Vol. -   page: 1 - 26   2021

     More details

  10. Preliminary development of training environment for deep learning on supercomputer system Reviewed

    Y. Nomura, I. Sato, T. Hanawa, S. Hanaoka, T. Nakao, T. Takenaga, D. Sato, T. Hoshino, Y. Sekiya, S. Ohshima, N. Hayashi, O. Abe

    International Journal of Computer Assisted Radiology and Surgery   Vol. 13 ( Issue 1 supplement ) page: S105 - S106   2018.6

     More details

    Publishing type:Research paper (international conference proceedings)  

    DOI: 10.1007/s11548-018-1766-y

  11. Optimization of generation process for sparse coefficient matrices in FEM on multicore/manycore architectures

    中島研吾, 中島研吾, 星野哲也, 星野哲也, 成瀬彰, 塙敏博, 三木洋平

    情報処理学会研究報告(Web)   Vol. 2018 ( HPC-163 ) page: Vol.2018‐HPC‐163,No.28,1‐8 (WEB ONLY)   2018.2

     More details

    Language:Japanese  

    J-GLOBAL

  12. Load-Balancing-Aware Parallel Algorithms of H-Matrices with Adaptive Cross Approximation for GPUs. Reviewed

    Tetsuya Hoshino, Akihiro Ida, Toshihiro Hanawa, Kengo Nakajima

    IEEE International Conference on Cluster Computing, CLUSTER 2018, Belfast, UK, September 10-13, 2018     page: 35 - 45   2018

     More details

    Publishing type:Research paper (international conference proceedings)   Publisher:IEEE Computer Society  

    DOI: 10.1109/CLUSTER.2018.00016

  13. Design of parallel BEM analyses framework for SIMD processors Reviewed

    Tetsuya Hoshino, Akihiro Ida, Toshihiro Hanawa, Kengo Nakajima

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   Vol. 10860   page: 601 - 613   2018

     More details

    Language:English   Publishing type:Research paper (scientific journal)   Publisher:Springer Verlag  

    Parallel Boundary Element Method (BEM) analyses are typically conducted using a purpose-built software framework called BEM-BB. This framework requires a user-defined function program that calculates the i-th row and the j-th column of the coefficient matrix arising from the convolution integral term in the fundamental BEM equation. Owing to this feature, the framework can encapsulate MPI and OpenMP hybrid parallelization with H-matrix approximation. Therefore, users can focus on implementing a fundamental solution or a Green’s function, which is the most important element in BEM and depends on the targeted physical phenomenon, as a user-defined function. However, the framework does not consider single instruction multiple data (SIMD) vectorization, which is important for high-performance computing and is supported by the majority of existing processors. Performing SIMD vectorization of a user-defined function is difficult because SIMD exploits instruction-level parallelization and is closely associated with the user-defined function. In this paper, a conceptual framework for enhancing SIMD vectorization is proposed. The proposed framework is evaluated using two BEM problems, namely, static electric field analysis with a perfect conductor and static electric field analysis with a dielectric, on Intel Broadwell (BDW) processor and Intel Xeon Phi Knights Landing (KNL) processor. It offers good vectorization performance with limited SIMD knowledge, as can be verified from the numerical results obtained herein. Specifically, in perfect conductor analyses conducted using the H-matrix, the framework achieved performance improvements of 2.22x and 4.34x compared to the original BEM-BB framework for the BDW processor and KNL, respectively.

    DOI: 10.1007/978-3-319-93698-7_46

    Scopus

  14. スーパーコンピュータ上でのDeep Learning学習環境の初期構築

    野村行弘, 佐藤一誠, 佐藤一誠, 佐藤一誠, 塙敏博, 花岡昇平, 中尾貴祐, 竹永智美, 佐藤大介, 星野哲也, 関谷勇司, 大島聡史, 林直人, 阿部修

    電子情報通信学会技術研究報告   Vol. 117 ( 281(MI2017 47-62) ) page: 1‐2   2017.10

     More details

    Language:Japanese  

    J-GLOBAL

  15. Pascal vs KNL: Performance Evaluation with ICCG Solve Reviewed

    Tetsuya Hoshino, Satoshi Ohshima, Toshihiro Hanawa, Kengo Nakaima, Akihiro Ida

    HPC in Asia Workshop Poster Session, ISC High Performance 2017     2017.6

     More details

    Language:English   Publishing type:Research paper (international conference proceedings)  

  16. OpenACCを用いたICCG法ソルバーのPascal GPUにおける性能評価

    星野哲也, 大島聡史, 塙敏博, 中島研吾, 伊田明宏

    情報処理学会研究報告(Web)   Vol. 2017 ( HPC-158 ) page: Vol.2017‐HPC‐158,No.18,1‐9 (WEB ONLY) - 9   2017.3

     More details

    Language:Japanese   Publishing type:Research paper (scientific journal)  

    J-GLOBAL

  17. A Directive-based Data Layout Abstraction for Performance Portability of OpenACC Applications Reviewed

    Tetsuya Hoshino, Naoya Maruyama, Satoshi Matsuoka

    PROCEEDINGS OF 2016 IEEE 18TH INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING AND COMMUNICATIONS; IEEE 14TH INTERNATIONAL CONFERENCE ON SMART CITY; IEEE 2ND INTERNATIONAL CONFERENCE ON DATA SCIENCE AND SYSTEMS (HPCC/SMARTCITY/DSS)     page: 1147 - 1154   2016

     More details

    Language:English   Publishing type:Research paper (international conference proceedings)   Publisher:IEEE  

    Directive-based programming interfaces such as OpenACC and OpenMP are becoming more prevalent in application development targeting accelerators, in particular when porting existing CPU-only code. Unlike vendor-specific alternatives such as CUDA, they are designed to be portable across different accelerators, and therefore once necessary directives are added to an existing CPU-only code, it can be executed on different accelerator architectures depending on the availability of supporting compilers. However, it does not automatically mean that such code runs efficiently on different architectures, and in fact, architecture-specific coding such as choosing optimal data layouts is almost mandatory for optimal performance, imposing a significant burden if implemented manually. Towards realizing performance portability in accelerator programming, we propose a set of extended directives that allow the programmer to optimize data layouts for a given accelerator without modifying original program code. Unlike the manual approach, the code change is confined in the directives with the original code kept as it is. This paper evaluates the effectiveness of our proposed extensions in the OpenACC standard by extending UPACS and CCS-QCD OpenACC applications. A prototype source-to-source translator for the extensions achieves 123% and 120% of the baseline performance, respectively, which are comparable to manually tuned versions.

    DOI: 10.1109/HPCC-SmartCity-DSS.2016.34

    Web of Science

  18. An OpenACC extension for data layout transformation Reviewed

    Tetsuya Hoshino, Naoya Maruyama, Satoshi Matsuoka

    Proceedings of WACCPD 2014: 1st Workshop on Accelerator Programming Using Directives - Held in Conjunction with SC 2014: The International Conference for High Performance Computing, Networking, Storage and Analysis     page: 12 - 18   2015.4

     More details

    Language:English   Publishing type:Research paper (international conference proceedings)   Publisher:Institute of Electrical and Electronics Engineers Inc.  

    OpenACC is gaining momentum as an implicit and portable interface in porting legacy CPU-based applications to heterogeneous, highly parallel computational environment involving many-core accelerators such as GPUs and Intel Xeon Phi. OpenACC provides a set of loop directives similar to OpenMP for the parallelization and also to manage data movement, attaining functional portability across different heterogeneous devices
    however, the performance portability of OpenACC is said to be insufficient due to the characteristics of different target devices, especially those regarding memory layouts, as automated attempts by the compilers to adapt is currently difficult. We are currently working to propose a set of directives to allow compilers to have better semantic information for adaptation
    here, we particularly focus on data layout such as Structure of Arrays, advantageous data structure for GPUs, as opposed to Array of Structures, which exhibits good performance on CPUs. We propose a directive extension to OpenACC that allows the users to flexibility specify optimal layouts, even if the data structures are nested. Performance results show that we gain as much as 96 % in performance for CPUs and 165% for GPUs compared to programs without such directives, essentially attaining both functional and performance portability in OpenACC.

    DOI: 10.1109/WACCPD.2014.12

    Scopus

  19. CUDA vs OpenACC: Performance Case Studies with Kernel Benchmarks and a Memory-Bound CFD Application11 Reviewed

    Tetsuya Hoshino, Naoya Maruyama, Satoshi Matsuoka, Ryoji Takaki

    PROCEEDINGS OF THE 2013 13TH IEEE/ACM INTERNATIONAL SYMPOSIUM ON CLUSTER, CLOUD AND GRID COMPUTING (CCGRID 2013)     page: 136 - 143   2013

     More details

    Language:English   Publishing type:Research paper (international conference proceedings)   Publisher:IEEE  

    OpenACC is a new accelerator programming interface that provides a set of OpenMP-like loop directives for the programming of accelerators in an implicit and portable way. It allows the programmer to express the offloading of data and computations to accelerators, such that the porting process for legacy CPU-based applications can be significantly simplified. This paper focuses on the performance aspects of OpenACC using two microbenchmarks and one real-world computational fluid dynamics application. Both evaluations show that in general OpenACC performance is approximately 50% lower than CUDA. However, for some applications it can reach up to 98% with careful manual optimizations. The results also indicate several limitations of the OpenACC specification that hamper full use of the GPU hardware resources, resulting in a significant performance gap when compared to a highly tuned CUDA code. The lack of a programming interface for the shared memory in particular results in as much as three times lower performance.

    DOI: 10.1109/CCGrid.2013.12

    Web of Science

▼display all

MISC 28

  1. CPU・GPU並列プログラミング入門(1)—Introduction to Parallel Programming on CPU and GPU(1)

    中島 研吾, 星野 哲也

    シミュレーション = Journal of the Japan Society for Simulation Technology / 日本シミュレーション学会 編   Vol. 42 ( 2 ) page: 103 - 109   2023.6

     More details

    Language:Japanese   Publisher:小宮山印刷工業  

    CiNii Books

  2. 数値計算ライブラリの自動チューニングにおけるXAI適用の試み—An Adaptation of XAI to Auto-tuning for Numerical Calculation Library

    青木 将太, 片桐 孝洋, 大島 聡史, 永井 亨, 星野 哲也

    計算工学講演会論文集 = Proceedings of the Conference on Computational Engineering and Science / 日本計算工学会 編   Vol. 28   page: 904 - 907   2023.5

     More details

    Language:Japanese   Publisher:日本計算工学会  

  3. Fortran標準規格do concurrentを用いたGPUオフローディング手法の評価

    星野 哲也, 塙 敏博

    情報処理学会研究報告(Web)   Vol. 2022-HPC-183   page: 1 - 8   2022

  4. A64FXにおけるテンポラルブロッキングの実装と性能評価

    星野 哲也, 塙 敏博

    研究報告ハイパフォーマンスコンピューティング(HPC)   Vol. 2021-HPC-178 ( 17 ) page: 1 - 8   2021.3

     More details

    Authorship:Lead author  

  5. 「計算・データ・学習」融合スーパーコンピュータシステム「Wisteria/BDEC-01」の概要

    中島研吾, 塙敏博, 下川辺隆史, 伊田明弘, 芝隼人, 三木洋平, 星野哲也, 有間英志, 河合直聡, 坂本龍一, 近藤正章, 岩下武史, 八代尚, 長尾大道, 松葉浩也, 荻田武史, 片桐孝洋, 古村孝志, 鶴岡弘, 市村強, 藤田航平

    情報処理学会研究報告(Web)   Vol. 2021 ( HPC-179 )   2021

     More details

  6. 「計算・データ・学習」融合スーパーコンピュータシステムWisteria/BDEC-01の性能評価

    塙敏博, 中島研吾, 中島研吾, 下川辺隆史, 芝隼人, 三木洋平, 星野哲也, 河合直聡, 似鳥啓吾, 今村俊幸, 工藤周平, 中尾昌広

    情報処理学会研究報告(Web)   Vol. 2021 ( HPC-180 )   2021

     More details

  7. A64FXにおける階層型行列演算の性能評価

    星野哲也, 伊田明弘, 伊田明弘, 塙敏博

    情報処理学会研究報告(Web)   Vol. 2021 ( HPC-180 ) page: 1 - 8   2021

     More details

  8. Large-scale earthquake sequence simulations of 3D geometrically complex faults using the boundary element method accelerated by lattice H-matrices on distributed memory computer systems

    伊田 明弘, 星野 哲也

    arXiv preprint   Vol. -   page: 1 - 26   2021

  9. An Optimization of H-matrix-vector Multiplication by Using Un-used Cores

    Tetsuya Hoshino, Toshihiro Hanawa, Akihiro Ida

    HPC Asia 2020     2020.1

  10. Numerical Linear Algebra Based on Lattice H-Matrices

    Akihiro Ida, Ichitaro Yamazaki, Rio Yokota, Satoshi Ohshima, Tasuku Hiraishi, Takeshi Iwashita, Tetsuya Hoshino, Toshihiro Hanawa

    HPC Asia 2020     2020.1

  11. メニーコアクラスタにおける階層型行列法の高速化に向けた性能評価

    星野哲也, 伊田明弘

    計算工学講演会論文集(CD-ROM)   Vol. 24   page: ROMBUNNO.C‐07‐02   2019.6

     More details

    Language:Japanese  

    J-GLOBAL

  12. High-level Abstractions for High Performance Computing on Many-core Processors

    Hoshino Tetsuya

        2018.9

     More details

    Language:English  

  13. OpenCLを用いたFPGAによる階層型行列計算

    塙敏博, 伊田明弘, 星野哲也

    情報処理学会研究報告(Web)   Vol. 2018 ( HPC-163 ) page: Vol.2018‐HPC‐163,No.26,1‐8 (WEB ONLY)   2018.2

     More details

    Language:Japanese  

    J-GLOBAL

  14. 階層型行列計算のFPGAへの適用

    塙敏博, 伊田明弘, 星野哲也

    情報処理学会研究報告(Web)   Vol. 2017 ( HPC-161 ) page: Vol.2017‐HPC‐161,No.10,1‐10 (WEB ONLY)   2017.9

     More details

    Language:Japanese  

    J-GLOBAL

  15. 階層型行列法ライブラリHACApKを用いたアプリケーションのメニーコア向け最適化

    星野哲也, 伊田明弘, 塙敏博, 中島研吾

    情報処理学会研究報告(Web)   Vol. 2017 ( HPC-160 ) page: Vol.2017‐HPC‐160,No.15,1‐10 (WEB ONLY) - 10   2017.7

     More details

    Language:Japanese  

    J-GLOBAL

  16. GPU搭載スーパーコンピュータReedbush‐Hの性能評価

    塙敏博, 星野哲也, 中島研吾, 大島聡史, 伊田明弘

    情報処理学会研究報告(Web)   Vol. 2017 ( HPC-159 ) page: Vol.2017‐HPC‐159,No.9,1‐6 (WEB ONLY)   2017.4

     More details

    Language:Japanese  

    J-GLOBAL

  17. Xeon Phi+OmniPath環境におけるOpenMP,MPI性能最適化

    塙敏博, 星野哲也, 中島研吾, 大島聡史, 伊田明弘

    情報処理学会研究報告(Web)   Vol. 2017 ( HPC-158 ) page: Vol.2017‐HPC‐158,No.21,1‐8 (WEB ONLY)   2017.3

     More details

    Language:Japanese  

    J-GLOBAL

  18. Optimization of ICCG Solver for Intel Xeon Phi

    中島研吾, 中島研吾, 大島聡史, 大島聡史, 塙敏博, 星野哲也, 伊田明弘, 伊田明弘

    情報処理学会研究報告(Web)   Vol. 2016 ( HPC-157 ) page: Vol.2016‐HPC‐157,No.16,1‐8 (WEB ONLY)   2016.12

     More details

    Language:Japanese  

    J-GLOBAL

  19. Performance Evaluation of Pipelined CG Method

    塙敏博, 中島研吾, 中島研吾, 大島聡史, 大島聡史, 星野哲也, 伊田明弘, 伊田明弘

    情報処理学会研究報告(Web)   Vol. 2016 ( HPC-157 ) page: Vol.2016‐HPC‐157,No.6,1‐9 (WEB ONLY)   2016.12

     More details

    Language:Japanese  

    J-GLOBAL

  20. データ解析・シミュレーション融合スーパーコンピュータシステムReedbush‐Uの性能評価

    塙敏博, 中島研吾, 大島聡史, 伊田明弘, 星野哲也, 田浦健次朗

    情報処理学会研究報告(Web)   Vol. 2016 ( HPC-156 ) page: Vol.2016‐HPC‐156,No.10,1‐10 (WEB ONLY) - 10   2016.9

     More details

    Language:Japanese  

    J-GLOBAL

  21. データレイアウト最適化指示文によるOpenACCアプリケーションの高速化

    星野 哲也

    研究報告ハイパフォーマンスコンピューティング(HPC)   Vol. 2016-HPC-155   page: 1 - 8   2016

  22. 圧縮性流体プログラムのOpenACCによる高速化

    星野 哲也

    研究報告ハイパフォーマンスコンピューティング(HPC)   Vol. 2016-HPC-153   page: 1 - 10   2016

  23. OpenACCディレクティブ拡張によるデータレイアウト最適化

    星野哲也, 丸山直也, 松岡聡

    研究報告ハイパフォーマンスコンピューティング(HPC)   Vol. 2014 ( 45 ) page: 1 - 8   2014.7

     More details

    Language:Japanese   Publisher:一般社団法人情報処理学会  

    近年増加傾向にある GPU 等のアクセラレータを搭載した計算環境への既存プログラムの移植方法として,CUDA・OpenCL に代表されるローレベルなプログラミングモデルを用いる方法に対し,ディレクティブベースの OpenACC のようなハイレベルなプログラミングモデルを用いる方法が注目されている.このようなディレクティブベースのプログラミングモデルの利点として,元のプログラムを維持したまま移植を行えるために,デバイス間の機能的な可搬性が高いことがあげられる.しかし現状の OpenACC などの High-level なプログラミングモデルは,スカラプロセッサとメニーコアアクセラレータの得意とするデータレイアウトの相違に対応することが出来ず,異なる性質を持ったデバイス間の性能可搬性に問題がある.そこで本研究では,データレイアウトを抽象化し,異なるデバイス間での性能可搬性を向上させるための OpenACC の拡張ディレクティブを試作し,姫野ベンチマークのデータレイアウトをトランスレーターにより変更し,マルチコア CPU,Intex Xeon Phi,K20X GPU のそれぞれで評価を行った.その結果,オリジナルと同一のデータレイアウトと比較して,Intel Xeon Phi では 27%,K20X GPU では 24%の性能向上が得られることを確認した.

    CiNii Books

  24. CPU-GPUそれぞれに最適なデータレイアウトを選択可能にするOpenACCディレクティブ拡張

    星野哲也, 丸山直也, 松岡聡

    研究報告ハイパフォーマンスコンピューティング(HPC)   Vol. 2014 ( 5 ) page: 1 - 5   2014.2

     More details

    Language:Japanese   Publisher:一般社団法人情報処理学会  

    近年増加傾向にある GPU 等のアクセラレータを搭載した計算環境への既存プログラムの移植方法として,CUDA・OpenCL に代表される Low-level なプログラミングモデルを用いる方法に対し,ディレクティブベースの OpenACC のような High-level なプログラミングモデルを用いる方法が考えられる.このようなディレクティブベースのプログラミングモデルの利点として,元のプログラムを壊さずに移植を行えるために,デバイス間の可搬性が高いことがあげられる.しかし現状の OpenACC などのプログラミングモデルは,スカラプロセッサとメニーコアアクセラレータの得意とするデータレイアウトの相違等に対応することが出来ず,異なる性質を持ったデバイス間の性能可搬性に問題がある.そこで本研究では,データレイアウトを抽象化し,異なるデバイス間での性能可搬性を向上させるための OpenACC の拡張ディレクティブを試作し,評価を行った.

    CiNii Books

  25. ディレクティブベースプログラミング言語OpenACCの性能評価

    星野哲也, 丸山直也, 松岡聡

    ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集   Vol. 2013   page: 91 - 91   2013.1

     More details

    Language:Japanese  

  26. Evaluation of Portability for a Real-world CFD Application with CUDA and OpenACC

    星野 哲也, 丸山 直也, 松岡 聡

    研究報告ハイパフォーマンスコンピューティング(HPC)   Vol. 2012 ( 42 ) page: 1 - 9   2012.7

     More details

    Language:Japanese  

    地震や気象予測,航空機や高層ビル設計といったシミュレーションに利用される数値流体力学アプリケーションは,近年一般的になりつつある GPU を用いたスーパーコンピュータにおいて,目覚ましい成果を上げている.しかし,GPU を用いたプログラミングは,高い性能を得ること難しいと言われており,レガシープログラムの GPU 環境への移植が問題となっている.本稿では,実際に利用されている大規模流体アプリケーションである UPACS を手動により CUDA 化し,性能と移植コストの面から評価を行った.また,プログラムの移植性を解決すると期待されている,OpenACC の予備評価を行った.これら評価の結果を示し,今後解決すべき課題について述べる.Computational fluid dynamics (CFD) applications used for an earthquake and meteorological simulation are one of the most important application executed with high-speed supercomputers. Especially, GPU-based supercomputers have been showing remarkable performance of CFD applications. However, GPU-programing is still difficult to obtain high performance, which prevents legacy applications from being ported to GPU environment. We apply classical optimizations to a real-world CFD application UPACS and evaluate it&#039;s performance and porting costs, and we also evaluate OpenACC expected to provide portability across CPUs and GPUs. We demonstrate these results of evaluation and mention performance problems should be resolved in the future.

    CiNii Books

  27. 大規模流体アプリケーションのGPUによる高速化手法の評価

    星野哲也, 丸山直也, 松岡聡

    先進的計算基盤システムシンポジウム論文集   Vol. 2012   page: 73 - 74   2012.5

     More details

    Language:Japanese  

  28. “Open ACC Programming”

    Naoya Maruyama, Tetsuya Hoshino

    Kyokai Joho Imeji Zasshi/Journal of the Institute of Image Information and Television Engineers   Vol. 66 ( 10 ) page: 817 - 822   2012

     More details

    Language:English   Publisher:一般社団法人映像情報メディア学会  

    DOI: 10.3169/itej.66.817

    Scopus

    CiNii Books

▼display all

KAKENHI (Grants-in-Aid for Scientific Research) 4

  1. 実アプリケーションの時空間ブロッキングによる高速化に関する研究

    Grant number:22K17898  2022.4 - 2024.3

    日本学術振興会  科学研究費助成事業  若手研究

    星野 哲也

      More details

    Authorship:Principal investigator 

    Grant amount:\1430000 ( Direct Cost: \1100000 、 Indirect Cost:\330000 )

    スーパーコンピュータに搭載される最新世代のCPUは大きな共有キャッシュを有し、これを効率的に利用する最適化手法として知られる時空間ブロッキングは、科学・工学分野のシミュレーションで頻出するステンシル計算を高速化するための手法である。しかし時空間ブロッキングは煩雑なプログラミングを要求するため、実アプリケーションへの応用は進んでいない。本研究課題では、比較的簡単なコード変換によって実現可能ながら、大容量の共有キャッシュメモリを用いることで高効率実行が可能なoverlapped方式の時空間ブロッキング手法に着目し、様々なCPUにおける性能モデリング及び実アプリケーションでの有効性の検証を行う。
    本研究は、特に微分方程式を解く際に頻出する計算パターンのステンシル計算を高速化する手法として知られる、時空間ブロッキングを対象として性能モデリングを構築することが目的である。時空間ブロッキングには冗長計算が必要なoverlapped方式と冗長計算を削減したtrapezoid方式などがあるが、本年度は3次元の拡散方程式プログラムに対してoverlapped(x,y次元)+trapezoid(z次元)のハイブリッドによる時空間ブロッキングの実装を行なった。実装されたプログラムをXeon CPU, A64FXなどで評価を行なっている。Xeon CPUではL1/L2キャッシュの性能から、概ね想定した通りの性能が得られている一方、A64FXではキャッシュ性能以外にも考慮すべき点がいくつかある(演算レイテンシと、それを隠すために必要なパイプライン実行の段数、パイプライン実行に必要なレジスタ数など)ことが分析によりわかってきた。さらに分析を進め、アプリケーション側のパラメータを含め、性能モデルの構築を目指している。
    また実アプリケーションとして、気象庁の天気予報シミュレーションプログラムであるasucaへの時空間ブロッキングの適用を検討している。時空間ブロッキングは、キャッシュを有効利用することにより、冗長な計算を許容しつつもメモリへの負荷を下げる手法であるため、メモリ性能を十分に引き出しいてるプログラムでなければ適用効果が見込めないため、時空間ブロッキング適用に向けたasucaの最適化を行なった。最適化の効果により1.5倍程度の高速化が得られたが、時空間ブロッキングの適用には更なる最適化が必要であることが判明した。
    2023年1月に、課題代表者が東京大学情報基盤センター助教から名古屋大学情報基盤センター准教授へと転職したことによる予算執行の遅れや、新たに受け持つことになった授業の準備などの影響で、当初計画より実装や実験の準備が遅れている。当初計画では、2022年度中に国内研究会で成果発表を行う予定であったが、成果発表が2023年度にずれ込むこととなったため、やや遅れていると評価した。
    今後の方針として、より新しいCPUを用いた性能評価が必要となる。本研究と関連して、学際大規模情報基盤共同利用・共同研究拠点の2023年度課題として「近代的メニーコアシステムにおける性能モデリング手法」に採択されたため、2023年度は京都大学に新たに設置されたHBMメモリを持つXeon CPU等での評価・分析を行い、より多様なプロセッサを用いての性能モデルの開発に取り組む。
    また実アプリケーションでの効果の検証を行うため、気象庁プログラムであるasucaの他、地震シミュレーションコード、大気海洋シミュレーションコードなどへも、それぞれの専門家との共同研究により適用を検討したい。

  2. Construction of numerical linear algebra based on lattice H-matrices and its high-performance implementation on modern architectures

    Grant number:21H03447  2021.4 - 2024.3

    Japan Society for the Promotion of Science  Grants-in-Aid for Scientific Research  Grant-in-Aid for Scientific Research (B)

      More details

    Authorship:Coinvestigator(s) 

  3. 余剰コアを活用する高性能計算・データ解析支援

    Grant number:20H00580  2020.4 - 2023.3

    日本学術振興会  科学研究費助成事業  基盤研究(A)

    塙 敏博, 下川辺 隆史, 星野 哲也, 三木 洋平, 伊田 明弘, 下川辺 隆史, 星野 哲也, 三木 洋平, 伊田 明弘

      More details

    Authorship:Coinvestigator(s) 

    ①ユーザプログラムを再コンパイルせずに、動的プロファイリングを実現する手法を検討した。SystemTapを用いて,測定したい関数部分に着目したプロファイル、OpenMP並列数の動的な変更をほぼオーバヘッドなく実現した。主計算と同時に他の処理を実行した際の影響を測定した。
    ②MPI+OpenMP並列化されたアプリケーションを効率的に動作させることを目指して、MPIプロセス毎に割り付けられるコア数(OpenMPスレッド数)をコントロールし、各コアの負荷を均一化する手法について検討した。検討手法をDCBライブラリとして実装し、アプリケーションから簡単なAPIコールのみで利用できるようにした。DCBライブラリを格子H行列法コードに適用し、15.5%の計算速度向上と8.0%の消費電力削減を実現した。
    ③In Situデータ解析の実現に向けた準備として,宇宙物理分野のアプリケーションにおいて時間進化の計算中に解析処理を実行する機能を追加した.特定条件を満たしたデータだけを高頻度に単一ファイルへと追加出力する機能も追加し,非同期ファイルIO機能の予備評価に利用可能にした。
    ④流体計算において頻出するステンシル計算は一般的にメモリ律速となることが知られており、余剰な演算器が発生しやすい演算パターンである。キャッシュメモリを利用し数ステップ分の演算をメモリに書き戻すことなく実行することで、余剰な演算器を活用する手法として知られるテンポラルブロッキングを3次元の拡散方程式カーネルに適用し、最新のプロセッサにおいて評価した結果,最大4.99倍の性能向上を実現した。
    ⑤ステンシル計算のうち局所的に高精細にできる適合格子細分化法(AMR法)では、データ構造の複雑さから通信が性能低下につながる。余剰コアを活用するという観点からテンポラルブロッキングを最新のプロセッサで効率的に利用する方法について検討を進めた。

  4. Auto-tuning Framework Focusing on Application Data Structure for Many-core Processors

    Grant number:16H06679  2016.8 - 2018.3

    Japan Society for the Promotion of Science  Grants-in-Aid for Scientific Research  Grant-in-Aid for Research Activity Start-up

    HOSHINO Tetsuya

      More details

    Nowadays, the number of computational environment using many-core processors is increasing. To bring out the efficient performance of many-core processors, it is important to efficiently use the Vector Processing Unit (VPU). However, the knowledge of hardware and compiler is required to efficiently use the VPU, and moreover, data structural changes are often required.
    In this research, we propose a set of compiler directives for abstraction of data layout. We also implement a translator for the proposed directives. Furthermore, we propose a framework design to enhance the efficient vectorization. Also, we implement a BEM-BB framework using the proposed framework design.

 

Teaching Experience (On-campus) 3

  1. High-Performance Computing B

    2023

  2. Advanced Lectures on Large-scale Parallel Computing

    2023

  3. Programming 2

    2023

 

Social Contribution 1

  1. 最近のFortran向けGPUプログラミング事情(JAXA内部講習会)

    Role(s):Lecturer

    2023.12

Academic Activities 2

  1. HPC Asia 2024 Local Arrangement Chair

    Role(s):Planning, management, etc.

    2024.1

     More details

    Type:Academic society, research group, etc. 

  2. xSIG 2023 プログラム委員

    Role(s):Peer review

    2023.8

     More details

    Type:Peer review