2023/03/24 更新

写真a

ホシノ テツヤ
星野 哲也
HOSHINO Tetsuya
所属
情報基盤センター 大規模計算支援環境研究部門 准教授
大学院担当
大学院情報学研究科
職名
准教授

研究分野 1

  1. 情報通信 / 高性能計算

経歴 1

  1. 東京大学   情報基盤センター   助教

    2016年1月 - 2022年12月

 

論文 12

  1. Large-scale earthquake sequence simulations on 3D nonplanar faults using the boundary element method accelerated by lattice H-matrices

    So Ozawa, Akihiro Ida, Tetsuya Hoshino, Ryosuke Ando

    Geophysical Journal International     2022年10月

     詳細を見る

    掲載種別:研究論文(学術雑誌)   出版者・発行元:Oxford University Press (OUP)  

    Summary

    Large-scale earthquake sequence simulations using the boundary element method (BEM) incur extreme computational costs through multiplying a dense matrix with a slip rate vector. Hierarchical matrices (H-matrices) have often been used to accelerate this multiplication. However, the complexity of the structures of the H-matrices and the communication costs between processors limit their scalability, and they therefore cannot be used efficiently in distributed memory computer systems. Lattice H-matrices have recently been proposed as a tool to improve the parallel scalability of H-matrices. In this study, we developed a method for earthquake sequence simulations applicable to 3D nonplanar faults with lattice H-matrices. We present a simulation example and verify the mesh convergence of our method for a 3D nonplanar thrust fault using rectangular and triangular discretizations. We also performed performance and scalability analyses of our code. Our simulations, using over ${10^5}$ degrees of freedom, demonstrated a parallel acceleration beyond ${10^4}$ MPI processors and a > 10-fold acceleration over the best performance when the normal H-matrices are used. Using this code, we can perform unprecedented large-scale earthquake sequence simulations on geometrically complex faults with supercomputers. The software is made an open-source and freely available.

    DOI: 10.1093/gji/ggac386

  2. Optimizations of H-matrix-vector Multiplication for Modern Multi-core Processors.

    Tetsuya Hoshino, Akihiro Ida, Toshihiro Hanawa

    CLUSTER     頁: 462 - 472   2022年

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/CLUSTER51413.2022.00056

    その他リンク: https://dblp.uni-trier.de/db/conf/cluster/cluster2022.html#HoshinoIH22

  3. Preliminary development of training environment for deep learning on supercomputer system 査読有り

    Y. Nomura, I. Sato, T. Hanawa, S. Hanaoka, T. Nakao, T. Takenaga, D. Sato, T. Hoshino, Y. Sekiya, S. Ohshima, N. Hayashi, O. Abe

    International Journal of Computer Assisted Radiology and Surgery   13 巻 ( Issue 1 supplement ) 頁: S105 - S106   2018年6月

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1007/s11548-018-1766-y

  4. 有限要素法における係数行列生成部のマルチコア・メニィコア向け最適化

    中島研吾, 中島研吾, 星野哲也, 星野哲也, 成瀬彰, 塙敏博, 三木洋平

    情報処理学会研究報告(Web)   2018 巻 ( HPC-163 ) 頁: Vol.2018‐HPC‐163,No.28,1‐8 (WEB ONLY)   2018年2月

     詳細を見る

    記述言語:日本語  

    J-GLOBAL

  5. Design of parallel BEM analyses framework for SIMD processors 査読有り

    Tetsuya Hoshino, Akihiro Ida, Toshihiro Hanawa, Kengo Nakajima

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)   10860 巻   頁: 601 - 613   2018年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Springer Verlag  

    Parallel Boundary Element Method (BEM) analyses are typically conducted using a purpose-built software framework called BEM-BB. This framework requires a user-defined function program that calculates the i-th row and the j-th column of the coefficient matrix arising from the convolution integral term in the fundamental BEM equation. Owing to this feature, the framework can encapsulate MPI and OpenMP hybrid parallelization with H-matrix approximation. Therefore, users can focus on implementing a fundamental solution or a Green’s function, which is the most important element in BEM and depends on the targeted physical phenomenon, as a user-defined function. However, the framework does not consider single instruction multiple data (SIMD) vectorization, which is important for high-performance computing and is supported by the majority of existing processors. Performing SIMD vectorization of a user-defined function is difficult because SIMD exploits instruction-level parallelization and is closely associated with the user-defined function. In this paper, a conceptual framework for enhancing SIMD vectorization is proposed. The proposed framework is evaluated using two BEM problems, namely, static electric field analysis with a perfect conductor and static electric field analysis with a dielectric, on Intel Broadwell (BDW) processor and Intel Xeon Phi Knights Landing (KNL) processor. It offers good vectorization performance with limited SIMD knowledge, as can be verified from the numerical results obtained herein. Specifically, in perfect conductor analyses conducted using the H-matrix, the framework achieved performance improvements of 2.22x and 4.34x compared to the original BEM-BB framework for the BDW processor and KNL, respectively.

    DOI: 10.1007/978-3-319-93698-7_46

    Scopus

  6. Load-Balancing-Aware Parallel Algorithms of H-Matrices with Adaptive Cross Approximation for GPUs. 査読有り

    Tetsuya Hoshino, Akihiro Ida, Toshihiro Hanawa, Kengo Nakajima

    IEEE International Conference on Cluster Computing, CLUSTER 2018, Belfast, UK, September 10-13, 2018     頁: 35 - 45   2018年

     詳細を見る

    掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE Computer Society  

    DOI: 10.1109/CLUSTER.2018.00016

  7. スーパーコンピュータ上でのDeep Learning学習環境の初期構築

    野村行弘, 佐藤一誠, 佐藤一誠, 佐藤一誠, 塙敏博, 花岡昇平, 中尾貴祐, 竹永智美, 佐藤大介, 星野哲也, 関谷勇司, 大島聡史, 林直人, 阿部修

    電子情報通信学会技術研究報告   117 巻 ( 281(MI2017 47-62) ) 頁: 1‐2   2017年10月

     詳細を見る

    記述言語:日本語  

    J-GLOBAL

  8. Pascal vs KNL: Performance Evaluation with ICCG Solve 査読有り

    Tetsuya Hoshino, Satoshi Ohshima, Toshihiro Hanawa, Kengo Nakaima, Akihiro Ida

    HPC in Asia Workshop Poster Session, ISC High Performance 2017     2017年6月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

  9. OpenACCを用いたICCG法ソルバーのPascal GPUにおける性能評価

    星野哲也, 大島聡史, 塙敏博, 中島研吾, 伊田明宏

    情報処理学会研究報告(Web)   2017 巻 ( HPC-158 ) 頁: Vol.2017‐HPC‐158,No.18,1‐9 (WEB ONLY)   2017年3月

     詳細を見る

    記述言語:日本語  

    J-GLOBAL

  10. A Directive-based Data Layout Abstraction for Performance Portability of OpenACC Applications 査読有り

    Tetsuya Hoshino, Naoya Maruyama, Satoshi Matsuoka

    PROCEEDINGS OF 2016 IEEE 18TH INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING AND COMMUNICATIONS; IEEE 14TH INTERNATIONAL CONFERENCE ON SMART CITY; IEEE 2ND INTERNATIONAL CONFERENCE ON DATA SCIENCE AND SYSTEMS (HPCC/SMARTCITY/DSS)     頁: 1147 - 1154   2016年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    Directive-based programming interfaces such as OpenACC and OpenMP are becoming more prevalent in application development targeting accelerators, in particular when porting existing CPU-only code. Unlike vendor-specific alternatives such as CUDA, they are designed to be portable across different accelerators, and therefore once necessary directives are added to an existing CPU-only code, it can be executed on different accelerator architectures depending on the availability of supporting compilers. However, it does not automatically mean that such code runs efficiently on different architectures, and in fact, architecture-specific coding such as choosing optimal data layouts is almost mandatory for optimal performance, imposing a significant burden if implemented manually. Towards realizing performance portability in accelerator programming, we propose a set of extended directives that allow the programmer to optimize data layouts for a given accelerator without modifying original program code. Unlike the manual approach, the code change is confined in the directives with the original code kept as it is. This paper evaluates the effectiveness of our proposed extensions in the OpenACC standard by extending UPACS and CCS-QCD OpenACC applications. A prototype source-to-source translator for the extensions achieves 123% and 120% of the baseline performance, respectively, which are comparable to manually tuned versions.

    DOI: 10.1109/HPCC-SmartCity-DSS.2016.34

    Web of Science

  11. An OpenACC extension for data layout transformation 査読有り

    Tetsuya Hoshino, Naoya Maruyama, Satoshi Matsuoka

    Proceedings of WACCPD 2014: 1st Workshop on Accelerator Programming Using Directives - Held in Conjunction with SC 2014: The International Conference for High Performance Computing, Networking, Storage and Analysis     頁: 12 - 18   2015年4月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Institute of Electrical and Electronics Engineers Inc.  

    OpenACC is gaining momentum as an implicit and portable interface in porting legacy CPU-based applications to heterogeneous, highly parallel computational environment involving many-core accelerators such as GPUs and Intel Xeon Phi. OpenACC provides a set of loop directives similar to OpenMP for the parallelization and also to manage data movement, attaining functional portability across different heterogeneous devices
    however, the performance portability of OpenACC is said to be insufficient due to the characteristics of different target devices, especially those regarding memory layouts, as automated attempts by the compilers to adapt is currently difficult. We are currently working to propose a set of directives to allow compilers to have better semantic information for adaptation
    here, we particularly focus on data layout such as Structure of Arrays, advantageous data structure for GPUs, as opposed to Array of Structures, which exhibits good performance on CPUs. We propose a directive extension to OpenACC that allows the users to flexibility specify optimal layouts, even if the data structures are nested. Performance results show that we gain as much as 96 % in performance for CPUs and 165% for GPUs compared to programs without such directives, essentially attaining both functional and performance portability in OpenACC.

    DOI: 10.1109/WACCPD.2014.12

    Scopus

  12. CUDA vs OpenACC: Performance Case Studies with Kernel Benchmarks and a Memory-Bound CFD Application11 査読有り

    Tetsuya Hoshino, Naoya Maruyama, Satoshi Matsuoka, Ryoji Takaki

    PROCEEDINGS OF THE 2013 13TH IEEE/ACM INTERNATIONAL SYMPOSIUM ON CLUSTER, CLOUD AND GRID COMPUTING (CCGRID 2013)     頁: 136 - 143   2013年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    OpenACC is a new accelerator programming interface that provides a set of OpenMP-like loop directives for the programming of accelerators in an implicit and portable way. It allows the programmer to express the offloading of data and computations to accelerators, such that the porting process for legacy CPU-based applications can be significantly simplified. This paper focuses on the performance aspects of OpenACC using two microbenchmarks and one real-world computational fluid dynamics application. Both evaluations show that in general OpenACC performance is approximately 50% lower than CUDA. However, for some applications it can reach up to 98% with careful manual optimizations. The results also indicate several limitations of the OpenACC specification that hamper full use of the GPU hardware resources, resulting in a significant performance gap when compared to a highly tuned CUDA code. The lack of a programming interface for the shared memory in particular results in as much as three times lower performance.

    DOI: 10.1109/CCGrid.2013.12

    Web of Science

▼全件表示

MISC 22

  1. A64FXにおけるテンポラルブロッキングの実装と性能評価

    星野 哲也, 塙 敏博  

    研究報告ハイパフォーマンスコンピューティング(HPC)2021-HPC-178 巻 ( 17 ) 頁: 1 - 8   2021年3月

     詳細を見る

    担当区分:筆頭著者  

  2. A64FXにおける階層型行列演算の性能評価

    星野哲也, 伊田明弘, 伊田明弘, 塙敏博  

    情報処理学会研究報告(Web)2021 巻 ( HPC-180 )   2021年

     詳細を見る

  3. 「計算・データ・学習」融合スーパーコンピュータシステムWisteria/BDEC-01の性能評価

    塙敏博, 中島研吾, 中島研吾, 下川辺隆史, 芝隼人, 三木洋平, 星野哲也, 河合直聡, 似鳥啓吾, 今村俊幸, 工藤周平, 中尾昌広  

    情報処理学会研究報告(Web)2021 巻 ( HPC-180 )   2021年

     詳細を見る

  4. 「計算・データ・学習」融合スーパーコンピュータシステム「Wisteria/BDEC-01」の概要

    中島研吾, 塙敏博, 下川辺隆史, 伊田明弘, 芝隼人, 三木洋平, 星野哲也, 有間英志, 河合直聡, 坂本龍一, 近藤正章, 岩下武史, 八代尚, 長尾大道, 松葉浩也, 荻田武史, 片桐孝洋, 古村孝志, 鶴岡弘, 市村強, 藤田航平  

    情報処理学会研究報告(Web)2021 巻 ( HPC-179 )   2021年

     詳細を見る

  5. An Optimization of H-matrix-vector Multiplication by Using Un-used Cores

    Tetsuya Hoshino, Toshihiro Hanawa, Akihiro Ida  

    HPC Asia 2020   2020年1月

  6. Numerical Linear Algebra Based on Lattice H-Matrices

    伊田 明弘, Ichitaro Yamazaki, Rio Yokota, Satoshi Ohshima, Tasuku Hiraishi, Takeshi Iwashita, Tetsuya Hoshino, Toshihiro Hanawa  

    HPC Asia   2020年1月

  7. メニーコアクラスタにおける階層型行列法の高速化に向けた性能評価

    星野哲也, 伊田明弘  

    計算工学講演会論文集(CD-ROM)24 巻   頁: ROMBUNNO.C‐07‐02   2019年6月

     詳細を見る

    記述言語:日本語   出版者・発行元:日本計算工学会  

    J-GLOBAL

  8. メニーコアプロセッサにおける高性能計算のための高レベル抽象化

    星野 哲也, Hoshino Tetsuya  

        2018年9月

     詳細を見る

    記述言語:英語  

  9. OpenCLを用いたFPGAによる階層型行列計算

    塙敏博, 伊田明弘, 星野哲也  

    情報処理学会研究報告(Web)2018 巻 ( HPC-163 ) 頁: Vol.2018‐HPC‐163,No.26,1‐8 (WEB ONLY)   2018年2月

     詳細を見る

    記述言語:日本語  

    J-GLOBAL

  10. 階層型行列計算のFPGAへの適用

    塙敏博, 伊田明弘, 星野哲也  

    情報処理学会研究報告(Web)2017 巻 ( HPC-161 ) 頁: Vol.2017‐HPC‐161,No.10,1‐10 (WEB ONLY)   2017年9月

     詳細を見る

    記述言語:日本語  

    J-GLOBAL

  11. 階層型行列法ライブラリHACApKを用いたアプリケーションのメニーコア向け最適化

    星野哲也, 伊田明弘, 塙敏博, 中島研吾  

    情報処理学会研究報告(Web)2017 巻 ( HPC-160 ) 頁: Vol.2017‐HPC‐160,No.15,1‐10 (WEB ONLY)   2017年7月

     詳細を見る

    記述言語:日本語  

    J-GLOBAL

  12. GPU搭載スーパーコンピュータReedbush‐Hの性能評価

    塙敏博, 星野哲也, 中島研吾, 大島聡史, 伊田明弘  

    情報処理学会研究報告(Web)2017 巻 ( HPC-159 ) 頁: Vol.2017‐HPC‐159,No.9,1‐6 (WEB ONLY)   2017年4月

     詳細を見る

    記述言語:日本語  

    J-GLOBAL

  13. Xeon Phi+OmniPath環境におけるOpenMP,MPI性能最適化

    塙敏博, 星野哲也, 中島研吾, 大島聡史, 伊田明弘  

    情報処理学会研究報告(Web)2017 巻 ( HPC-158 ) 頁: Vol.2017‐HPC‐158,No.21,1‐8 (WEB ONLY)   2017年3月

     詳細を見る

    記述言語:日本語  

    J-GLOBAL

  14. ICCG法ソルバーのIntel Xeon Phi向け最適化

    中島研吾, 中島研吾, 大島聡史, 大島聡史, 塙敏博, 星野哲也, 伊田明弘, 伊田明弘  

    情報処理学会研究報告(Web)2016 巻 ( HPC-157 ) 頁: Vol.2016‐HPC‐157,No.16,1‐8 (WEB ONLY)   2016年12月

     詳細を見る

    記述言語:日本語  

    J-GLOBAL

  15. パイプライン型共役勾配法の性能評価

    塙敏博, 中島研吾, 中島研吾, 大島聡史, 大島聡史, 星野哲也, 伊田明弘, 伊田明弘  

    情報処理学会研究報告(Web)2016 巻 ( HPC-157 ) 頁: Vol.2016‐HPC‐157,No.6,1‐9 (WEB ONLY)   2016年12月

     詳細を見る

    記述言語:日本語  

    J-GLOBAL

  16. データ解析・シミュレーション融合スーパーコンピュータシステムReedbush‐Uの性能評価

    塙敏博, 中島研吾, 大島聡史, 伊田明弘, 星野哲也, 田浦健次朗  

    情報処理学会研究報告(Web)2016 巻 ( HPC-156 ) 頁: Vol.2016‐HPC‐156,No.10,1‐10 (WEB ONLY)   2016年9月

     詳細を見る

    記述言語:日本語  

    J-GLOBAL

  17. OpenACCディレクティブ拡張によるデータレイアウト最適化

    星野哲也, 丸山直也, 松岡聡  

    研究報告ハイパフォーマンスコンピューティング(HPC)2014 巻 ( 45 ) 頁: 1 - 8   2014年7月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    近年増加傾向にある GPU 等のアクセラレータを搭載した計算環境への既存プログラムの移植方法として,CUDA・OpenCL に代表されるローレベルなプログラミングモデルを用いる方法に対し,ディレクティブベースの OpenACC のようなハイレベルなプログラミングモデルを用いる方法が注目されている.このようなディレクティブベースのプログラミングモデルの利点として,元のプログラムを維持したまま移植を行えるために,デバイス間の機能的な可搬性が高いことがあげられる.しかし現状の OpenACC などの High-level なプログラミングモデルは,スカラプロセッサとメニーコアアクセラレータの得意とするデータレイアウトの相違に対応することが出来ず,異なる性質を持ったデバイス間の性能可搬性に問題がある.そこで本研究では,データレイアウトを抽象化し,異なるデバイス間での性能可搬性を向上させるための OpenACC の拡張ディレクティブを試作し,姫野ベンチマークのデータレイアウトをトランスレーターにより変更し,マルチコア CPU,Intex Xeon Phi,K20X GPU のそれぞれで評価を行った.その結果,オリジナルと同一のデータレイアウトと比較して,Intel Xeon Phi では 27%,K20X GPU では 24%の性能向上が得られることを確認した.

    CiNii Books

  18. CPU-GPUそれぞれに最適なデータレイアウトを選択可能にするOpenACCディレクティブ拡張

    星野哲也, 丸山直也, 松岡聡  

    研究報告ハイパフォーマンスコンピューティング(HPC)2014 巻 ( 5 ) 頁: 1 - 5   2014年2月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    近年増加傾向にある GPU 等のアクセラレータを搭載した計算環境への既存プログラムの移植方法として,CUDA・OpenCL に代表される Low-level なプログラミングモデルを用いる方法に対し,ディレクティブベースの OpenACC のような High-level なプログラミングモデルを用いる方法が考えられる.このようなディレクティブベースのプログラミングモデルの利点として,元のプログラムを壊さずに移植を行えるために,デバイス間の可搬性が高いことがあげられる.しかし現状の OpenACC などのプログラミングモデルは,スカラプロセッサとメニーコアアクセラレータの得意とするデータレイアウトの相違等に対応することが出来ず,異なる性質を持ったデバイス間の性能可搬性に問題がある.そこで本研究では,データレイアウトを抽象化し,異なるデバイス間での性能可搬性を向上させるための OpenACC の拡張ディレクティブを試作し,評価を行った.

    CiNii Books

  19. ディレクティブベースプログラミング言語OpenACCの性能評価

    星野哲也, 丸山直也, 松岡聡  

    ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集2013 巻   頁: 91 - 91   2013年1月

     詳細を見る

    記述言語:日本語  

  20. 大規模流体アプリケーションのCUDA・OpenACCへの移植性の評価

    星野 哲也, 丸山 直也, 松岡 聡  

    研究報告ハイパフォーマンスコンピューティング(HPC)2012 巻 ( 42 ) 頁: 1 - 9   2012年7月

     詳細を見る

    記述言語:日本語  

    地震や気象予測,航空機や高層ビル設計といったシミュレーションに利用される数値流体力学アプリケーションは,近年一般的になりつつある GPU を用いたスーパーコンピュータにおいて,目覚ましい成果を上げている.しかし,GPU を用いたプログラミングは,高い性能を得ること難しいと言われており,レガシープログラムの GPU 環境への移植が問題となっている.本稿では,実際に利用されている大規模流体アプリケーションである UPACS を手動により CUDA 化し,性能と移植コストの面から評価を行った.また,プログラムの移植性を解決すると期待されている,OpenACC の予備評価を行った.これら評価の結果を示し,今後解決すべき課題について述べる.Computational fluid dynamics (CFD) applications used for an earthquake and meteorological simulation are one of the most important application executed with high-speed supercomputers. Especially, GPU-based supercomputers have been showing remarkable performance of CFD applications. However, GPU-programing is still difficult to obtain high performance, which prevents legacy applications from being ported to GPU environment. We apply classical optimizations to a real-world CFD application UPACS and evaluate it's performance and porting costs, and we also evaluate OpenACC expected to provide portability across CPUs and GPUs. We demonstrate these results of evaluation and mention performance problems should be resolved in the future.

    CiNii Books

  21. 大規模流体アプリケーションのGPUによる高速化手法の評価

    星野哲也, 丸山直也, 松岡聡  

    先進的計算基盤システムシンポジウム論文集2012 巻   頁: 73 - 74   2012年5月

     詳細を見る

    記述言語:日本語  

  22. OpenACCプログラミング

    丸山 直也, 星野 哲也  

    映像情報メディア学会誌 : 映像情報メディア = The journal of the Institute of Image Information and Television Engineers66 巻 ( 10 ) 頁: 817 - 822   2012年

     詳細を見る

    記述言語:英語   出版者・発行元:一般社団法人映像情報メディア学会  

    DOI: 10.3169/itej.66.817

    Scopus

▼全件表示

科研費 1

  1. 格子H行列に基づく数値線形代数の構築と最新アーキテクチャへの高性能実装法

    研究課題/研究課題番号:21H03447  2021年4月 - 2024年3月

    科学研究費助成事業  基盤研究(B)

    伊田 明弘, 横田 理央, 塙 敏博, 岩下 武史, 大島 聡史, 星野 哲也, 平石 拓

      詳細を見る

    担当区分:研究分担者 

    本研究では、科学技術計算およびデータ科学計算に必要な数値線形代数の行列演算について、格子H行列に基づき実行するアルゴリズム群を開発する。
    格子H行列は、研究代表者らが提案した低ランク構造行列法の一種であり、従来型のH行列では困難なアルゴリズムの開発を見通し良く行うことができる。計算に必要な密行列演算を格子H行列による近似演算に置き換え、計算機メモリと演算量の大幅な削減により、計算の大規模化・高速化を実現する。
    アルゴリズム開発は、最新の計算機アーキテクチャで構成されるクラスタ計算機を意識して行う。実装に際しては、混合精度演算・動的負荷分散などを含め最適な手法を研究する。
    格子H行列を用いた数値線形代数系の構築を目的とし、固有値計算、LU分解、QR分解などを実行する新しいアルゴリズムの研究・開発を行った。多くの成果が得られた中でも、主要なものとして、BLR(Block Low-Rank)行列の固有値計算法が挙げられる。格子H行列の特殊な場合であるBLR行列について、全固有値を計算するアルゴリズムを開発した。開発したアルゴリズムの計算複雑度を、BLR行列を特徴付ける行列サイズ・ブロックサイズ・各ブロックの階数(ランク)を変数として見積り、最適な条件を検討した。最適条件下で提案アルゴリズムの計算量が従来の密行列の場合に比べて大幅に低減させられることを理論的に示した。また、数値実験を用いて、計算時間が理論通り計算量に比例すること、および、固有値と固有ベクトルの誤差が階数を増やすにつれて密行列に近づいていくことを確かめた。
    格子H行列法の適用範囲の拡大に取り組んだ。従来、格子H行列を含む低ランク構造行列法は境界要素解析(時間項を含まない空間領域の積分方程式法)への適用が想定されていた。時空間領域積分方程式法に適用範囲を拡張すべく、FDP(Fast Domain Partitioning)法と格子H行列法を組み合わせた手法を開発し、従来手法の計算量を開発手法では大幅に低減させられることを理論的に示した。さらに、3次元弾性波動伝播解析を提案手法で行う計算コードを開発し、理論に近い計算時間で解析が行えることを確かめた。
    格子H行列法の高性能実装に関する研究においても多くの成果が得られた。主要な成果としては、タスク並列言語Tascellを拡張し、分散メモリ環境における行列分割構造生成の並列実装を提案した。3次元電場解析に対する約1億要素を用いた数値実験において、最大8ノード×36ワーカーで良好な高速化を達成した。
    本研究は格子H行列に対し、 (1)新しい数値計算アルゴリズムの研究開発、(2)適用範囲拡大の研究、(3)高性能実装法に関する研究、の3つの研究項目に大別される。研究項目(1)については、固有値計算法、LU分解法、QR分解法に関する新しいアルゴリズムを提案し、4件の学会発表(内、国際会議発表3件)を行った。また、得られた成果について3本の論文を査読付き論文誌に投稿した。研究項目(2)については、時空間領域積分方程式および地震周期解析へ格子H行列法を適用する研究成果3件について学会発表を行った。研究項目(3)については、H行列分割構造生成の分散メモリ並列環境実装、最新CPUアーキテクチャ向けH行列・ベクトル積最適化、BLR行列のQR分解実装法、等々の研究を行い、7件の学会発表(内、国際会議招待講演3件、国際会議一般発表1件)を行った。
    全ての研究項目について、多くの研究成果が得られており、おおむね順調に進展している。
    格子H行列の新しい数値計算アルゴリズムについて、これまでに行った固有値計算法、LU分解法、QR分解法の研究開発を引き続き実施する。これまで、各アルゴリズムの研究開発はノード内での計算に主眼を置いていたが、提案手法が行列サイズ数万以上で真価を発揮すると見込まれることから、分散メモリ並列計算アルゴリズムの開発を促進する。また、提案手法は近似計算手法であることから、計算された固有値や分解結果行列の計算精度が常に問われることが予想されるため、精度保証付き手法の研究にも着手する。更に、固有値計算手法については、これを発展させ、固有値のみでなく指定した固有値に対する固有ベクトルを計算するアルゴリズム計算する固有値問題解法の研究を進める。
    格子H行列の適用対象拡大の研究に関しては、現在進行中の地震周期解析および破壊解析に加え、超電導解析や電子状態計算など他の候補への適用を模索する。
    高性能実装法に関する研究に関しては、H行列分割構造生成の分散メモリ並列環境実装、最新CPUアーキテクチャ向けH行列・ベクトル積最適化、BLR行列のQR分解実装法に加え、混合精度演算の活用法とFPGA実装法の研究を実施する。また、格子H行列法はMPIプロセス間の負荷均衡を犠牲にして通信負荷を低減させる手法であるため負荷が不均衡になる弱点があるが、これを補うべく、各MPIプロセスに割り当てるコア数を変更し、各コアの計算負荷均衡を実現する研究を行う。