Graduate School of Informatics

Updated on 2025/02/22
Doctor of Engineering ( 2003.3 Nara Institute of Science and Technology )
Sound Environment Information Processing
Music Information Processing
Speech Information Processing
Informatics / Perceptual information processing / Speech Information Processing
音メディア情報処理
音メディア機能拡張
Nagoya University Department of Intelligent Systems, Graduate School of Informatics Professor
2017.4
Nagoya University Information Technology Center Professor
2015.9
Country:Japan
Nagoya University Department of Media Science, Graduate School of Information Science Professor
2015.9
Nara Institute of Science and Technology Graduate School of Information Science Associate professor
2011.4 - 2015.8
Country:Japan
Nara Institute of Science and Technology Graduate School of Information Science Assistant Professor
2007.4 - 2011.3
Country:Japan
Nara Institute of Science and Technology Graduate School of Information Science Assistant
2005.4 - 2007.3
Country:Japan
Japan Society for Promotion of Science Research Fellow
2003.4 - 2005.3
Country:Japan
Nara Institute of Science and Technology Doctoral Course, Graduate School of Information Science
2001.4 - 2003.3
Country: Japan
Nara Institute of Science and Technology Master's Course, Graduate School Information Science
1999.4 - 2001.3
Country: Japan
Nagoya University Faculty of Engineering Electrical and Electronic Engineering and Information Engineering
1995.4 - 1999.3
Country: Japan
情報処理学会 代表会員
2023.4
日本音響学会東海支部 評議員
2021.4
IEEE Senior Member
2019.2
日本音響学会 代議員/評議員
2015.6
大学ICT運営協議会 2023年度年次大会 実行委員会 実行委員
2022.11 - 2023.12
IEEE ASRU 2023, Organizing Committee Organizing Committee Member, Tutorial Chair
2022.7 - 2023.12
国公立大学情報システム研究会 世話人
2022.6
電子情報通信学会 音声研究専門委員会 委員長
2022.6
日本音響学会 音声研究専門委員会 幹事
2022.6
情報処理学会 音声言語情報処理研究運営委員会 主査
2022.4
IEEE SLT 2022, Organizing Committee Organizing Committee Member, Regional Publicity Chair
2021.7 - 2023.1
IEEE Signal Processing Letters, Editorial Board Senior Area Editor
2020.12
JASA Express Letters, Editorial Board Associate Editor
2020.6 - 2023.6
Joint Workshop for the Blizzard Challenge and Voice Conversion Challenge 2020, Organizing Committee Organizing Committee Member
2020.2 - 2020.11
IEEE Signal Processing Society, Tokyo Joint Chapter Treasurer
2019.1 - 2021.1
DSP in vehicles 2018, Organizing Committee Organizing Committee Member, Program Chair
2018.1 - 2018.10
IEEE Signal Processing Letters, Editorial Board Associate Editor
2016.11 - 2020.12
電子情報通信学会/日本音響学会 音声研究専門委員会 専門委員
2016.6 - 2020.5
国公立大学情報システム研究会 編集委員会 編集委員長
2016.6 - 2018.6
国公立大学情報システム研究会 世話人
2016.6 - 2018.6
IEEE ASRU 2017, Organizing Committee Organizing Committee Member, Challenge Chair
2016.6 - 2017.12
大学ICT運営協議会 2015年度年次大会 実行委員会 実行委員
2015.9 - 2015.12
International Workshop on Machine Learning in Spoken Language Processing (MLSLP), Organizing Committee Organizing Committee Member, Technical Program Chair
2015.4 - 2015.9
IEEE ASRU 2015, Organizing Committee Organizing Committee Member, Regional Publicity Chair
2014.8 - 2015.12
IEEE Signal Processing Society Speech and Language Technical Committee Member
2014.1 - 2016.12
日本音響学会 事業委員会 委員
2013.8 - 2017.8
日本音響学会 編集委員会 論文部会委員
2013.6 - 2017.6
電子情報通信学会/日本音響学会 音声研究専門委員会 幹事(企画)
2013.5 - 2015.5
EURASIP Journal on Audio, Speech, and Music Processing, Editorial Board Associate Editor
2013.4
情報処理学会 音楽情報科学研究運営委員会 運営委員
2013.4 - 2017.3
IEEE Signal Processing Society, Kansai Chapter Treasurer
2013.2 - 2015.1
IEEE ICASSP 2012, Organizing Committee Organizing Committee Member
2011.12 - 2012.3
International Workshop on Statistical Machine Learning for Speech Processing (IWSML), Organizing Committee Organizing Committee Member, Local Chair
2011.9 - 2012.3
ACM Transactions on Speech and Language Processing, Editorial Board Associate Editor
2011.3 - 2013.12
IEEE Signal Processing Society, Kansai Chapter Secretary
2011.2 - 2013.1
APSIPA Speech, Language, and Audio Technical Committee Member
2010.4 - 2016.12
INTERSPEECH 2010,Organizing Committee Organizing Committee Member, Student Award
2010.1 - 2010.9
The 7th ISCA Speech Synthesis Workshop (SSW7), Organizing Committee Organizing Committee Member
2008.8 - 2010.9
情報処理学会 音声言語情報処理研究運営委員会 運営委員
2008.4 - 2012.3
IEEE Signal Processing Society Speech and Language Technical Committee Member
2007.1 - 2009.12
SpandLDeteriorate Workshop of ACM MM Asia 2024 Best Paper Award
2024.12 SpandLDeteriorate Workshop Organizers of ACM MM Asia 2024
B. Halpern, T. Toda
研究会活動貢献賞
2024.3 情報処理学会学会 音声言語情報処理研究会活動への貢献
戸田 智基
第35回中小企業優秀新技術・新製品賞 産学官連携特別賞
2023.4 りそな中小企業振興財団,日刊工業新聞社
戸田 智基
DCASE 2022 Challenge Task 2 Judges' Award
2022.11 IEEE AASP Challenge on Detection and Classification of Acoustic Scenes and Events
I. Kuroyanagi, T. Hayashi, K. Takeda, T. Toda
APSIPA ASC 2021 The Best Paper Award
2021.12 APSIPA
D. Ma, W.-C. Huang, T. Toda
大学ICT推進協議会 2018年度年次大会 優秀ポスター賞
2019.3 大学ICT推進協議会 手書きレポートとLMSの連携を実現する名大版紙レポシステムの全学運用
出口 大輔, 清谷 竣也, 大平 茂輝, 戸田 智基
大学ICT推進協議会 2017年度年次大会 優秀論文賞
2018.3 大学ICT推進協議会 名古屋大学におけるサーバ型紙レポート・LMS連携システムの開発
清谷 竣也, 伊藤 瑠哉, 岡本 康佑, 谷川 右京, 大平 茂輝, 出口 大輔, 戸田 智基
文部科学大臣表彰 若手科学者賞
2015.4 文部科学省
戸田 智基
言語処理学会 第21回年次大会 優秀賞
2015.3 言語処理学会
小田 悠介、Graham Neubig、Sakriani Sakti、戸田 智基、中村 哲
APSIPA ASC 2014 The Best Paper Award
2014.12 APSIPA
S. Takamichi, T. Toda, A.W. Black, S. Nakamura
The 2013 EURASIP-ISCA Best Paper Award (Speech Communication Journal)
2013.9 EURASIP, and ISCA
T. Toda, A.W. Black, K. Tokuda
情報処理学会 2012年度喜安記念業績賞
2013.6 情報処理学会
徳田 恵一, 戸田 智基, 全 炳河, 山岸 順一, 大浦 圭一郎
APSIPA ASC 2012 The Best Paper Award (Short Paper in Regular Session Category)
2012.12 APSIPA
H. Doi, T. Toda, T. Nakano, M. Goto, S. Nakamura
2010年度音声研究会研究奨励賞
2011.6 電子情報通信学会/日本音響学会 音声研
戸田 智基
IEEE Signal Processing Society 2009 Young Author Best Paper Award
2010.3 IEEE Signal Processing Society
T. Toda
日本音響学会 第4回独創研究奨励賞板倉記念
2009.3 日本音響学会
戸田 智基
日本音響学会 第26回粟屋潔学術奨励賞
2009.3 日本音響学会
戸田 智基
電子情報通信学会 2007年度情報・システムソサイエティ論文賞(連作論文)
2008.12 電子情報通信学会情報・システムソサイエティ
全 炳河, 戸田 智基, 中村 勝, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正
第10回エリクソン・ヤング・サイエンティスト・アワード
2008.11 日本エリクソン株式会社
戸田 智基
第23回電気通信普及財団賞 テレコムシステム技術賞
2008.3 電気通信普及財団
全 炳河, 戸田 智基, 中村 勝, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正, 吉村 貴克
第18回電気通信普及財団賞 テレコムシステム技術学生賞
2003.3 電気通信普及財団
戸田 智基
Serial-OE: Anomalous sound detection based on serial method with outlier exposure capable of using small amounts of anomalous data for training Reviewed
I. Kuroyanagi, T. Hayashi, K. Takeda, T. Toda
APSIPA Transactions on Signal and Information Processing Vol. 14 ( 1, e1 ) page: 1 - 32 2025.1
Nonparallel spoken-text-style transfer for linguistic expression control in speech generation Reviewed
D. Yoshioka, Y. Yasuda, T. Toda
IEEE Transactions on Audio, Speech and Language Processing Vol. 33 page: 333 - 346 2025.1
Sequence-wise speech waveform modeling via gradient descent optimization of quasi-harmonic parameters Reviewed
S. Chen, T. Toda
IEEE Transactions on Audio, Speech and Language Processing Vol. 33 page: 319 - 332 2025.1
Target speaker extraction under noisy underdetermined conditions using conditional variational autoencoder, global style token, and neural postfilter Reviewed
R. Wang, T. Fujimura, T. Toda
APSIPA Transactions on Signal and Information Processing Vol. 14 ( 1, e2 ) page: 1 - 26 2025.1
SVDD 2024: The Inaugural Singing Voice Deepfake Detection Challenge Reviewed International coauthorship
Y. Zhang, Y. Zang, J. Shi, R. Yamamoto, T. Toda, Z. Duan
Proc. IEEE SLT page: 792 - 797 2024.12
End-to-end Mandarin speech reconstruction based on ultrasound tongue images using deep learning Reviewed International coauthorship
F. Li, F. Shen, D. Ma, J. Zhou, S. Zhang, L. Wang, F. Fan, T. Liu, X. Chen, T. Toda, H. Niu
IEEE Transactions on Neural Systems and Rehabilitation Engineering Vol. 33 page: 140 - 149 2024.12
Two-stage framework for robust speech emotion recognition using target speaker extraction in human speech noise conditions Reviewed
J. Mi, X. Shi, D. Ma, J. He, T. Fujimura, T. Toda
Proc. APSIPA ASC page: 6 pages 2024.12
Improved architecture for high-resolution piano transcription to efficiently capture acoustic characteristics of music signals Reviewed
J. Mi, S. Kim, T. Toda
Proc. APSIPA ASC page: 6 pages 2024.12
Multi-modal video summarization based on two-stage fusion of audio, visual, and recognized text information Reviewed
Z. Yang, J. He, T. Toda
Proc. APSIPA ASC page: 6 pages 2024.12
Multi-task learning approaches for music similarity representation learning based on individual instrument sounds Reviewed
T. Imamura, Y. Hashizume, T. Toda
Proc. APSIPA ASC page: 6 pages 2024.12
A study on multimodal fusion and layer adapter in emotion recognition Reviewed International coauthorship
X. Shi, Y. Gao, J. He, J. Mi, X. Li, T. Toda
Proc. APSIPA ASC page: 6 pages 2024.12
Reference-free automatic speech severity evaluation using acoustic unit language modelling Reviewed
B. Halpern, T. Toda
Proc. SpandLDeteriorate Workshop of ACM Multimedia Asia (Workshop on Multi-Biological Sensing Data for Speech and Language Deterioration Prediction) page: 5 pages 2024.12
The VoiceMOS Challenge 2024: beyond speech quality prediction Reviewed International coauthorship
W.-C. Huang, S.-W. Fu, E. Cooper, R. Zezario, T. Toda, H.-M. Wang, J. Yamagishi, Y. Tsao
Proc. IEEE SLT page: 813 - 820 2024.12
Multi-speaker text-to-speech training with speaker anonymized data Reviewed International coauthorship
W.-C. Huang, Y.-C. Wu, T. Toda
IEEE Signal Processing Letters Vol. 31 page: 2995 - 2999 2024.10
Challenge of singing voice synthesis using only text-to-speech corpus with FIRNet source-filter neural vocoder Reviewed
T. Okamoto, Y. Ohtani, S. Shimizu, T. Toda, H. Kawai
Proc. INTERSPEECH page: 1870 - 1874 2024.9
2DP-2MRC: 2-dimensional pointer-based machine reading comprehension method for multimodal moment retrieval Reviewed
J. He, T. Toda
Proc. INTERSPEECH page: 5073 - 5077 2024.9
CtrSVDD: a benchmark dataset and baseline analysis for controlled singing voice deepfake detection Reviewed International coauthorship
Y. Zang, J. Shi, Y. Zhang, R. Yamamoto, J. Han, Y. Tang, S. Xu, W. Zhao, J. Guo, T. Toda, Z. Duan
Proc. INTERSPEECH page: 4783 - 4787 2024.9
Exploring the robustness of text-to-speech synthesis based on diffusion probabilistic models to heavily noisy transcriptions Reviewed
J. Feng, Y. Yasuda, T. Toda
Proc. INTERSPEECH page: 4408 - 4412 2024.9
QHM-GAN: neural vocoder based on quasi-harmonic modeling Reviewed
S. Chen, T. Toda
Proc. INTERSPEECH page: 3889 - 3893 2024.9
Multimodal fusion of music theory-inspired and self-supervised representations for improved emotion recognition Reviewed International coauthorship
X. Shi, X. LI, T. Toda
Proc. INTERSPEECH page: 3724 - 3728 2024.9
Quantifying the effect of speech pathology on automatic and human speaker verification Reviewed International coauthorship
B. Halpern, T. Tienkamp, W.-C. Huang, L.P. Violeta, T. Rebernik, S. de Visscher, M.J.H. Witjes, M. Wieling, D. Abur, T. Toda
Proc. INTERSPEECH page: 3015 - 3019 2024.9
Embedding learning for preference-based speech quality assessment Reviewed
C.-H. Hu, Y. Yasuda, T. Toda
Proc. INTERSPEECH page: 2685 - 2689 2024.9
Discriminative neighborhood smoothing for generative anomalous sound detection Reviewed
T. Fujimura, K. Imoto, T. Toda
Proc. EUSIPCO page: 156 - 160 2024.8
Unsupervised training of neural network-based virtual microphone estimator Reviewed
J. Wang, T. Toda
Proc. EUSIPCO page: 256 - 260 2024.8
Robust sequence-to-sequence voice conversion for electrolaryngeal speech enhancement in noisy and reverberant conditions Reviewed
D. Ma, Y. Choi, F. Li, C. Xie, K. Kobayashi, T. Toda
Proc. IEEE EMBC page: 4 pages 2024.7
音声のMOS評価法の限界と大規模比較評価の新しい可能性 Invited Reviewed
安田 裕介, 戸田 智基
日本音響学会誌 Vol. 80 ( 7 ) page: 393 - 400 2024.7
合成音声の客観評価とVoiceMOSチャレンジ Invited Reviewed International coauthorship
クーパー エリカ, ホワン ウェンチン, ツァオ ユ, ワン シンミン, 戸田 智基, 山岸 順一
日本音響学会誌 Vol. 80 ( 7 ) page: 381 - 392 2024.7
A review on subjective and objective evaluation of synthetic speech Invited Reviewed International coauthorship
E. Cooper, W.-C. Huang, Y. Tsao, H.-M. Wang, T. Toda, J. Yamagishi
Acoustical Science and Technology Vol. 45 ( 4 ) page: 161 - 183 2024.7
Mandarin speech reconstruction from tongue motion ultrasound images based on generative adversarial networks Reviewed International coauthorship
F. Li, F. Shen, D. Ma, S. Zhang, J. Zhou, L. Wang, F. Fan, T. Liu, X. Chen, T. Toda, H. Niu
Proc. IEEE EMBC page: 4 pages 2024.7
Unequally spaced sound field interpolation for rotation-robust beamforming Reviewed
S. Luan, Y. Wakabayashi, T. Toda
IEEE/ACM Transactions on Audio, Speech and Language Processing Vol. 32 page: 3185 - 3199 2024.6
Pretraining and adaptation techniques for electrolaryngeal speech recognition Reviewed
L.P. Violeta, D. Ma, W.-C. Huang, T. Toda
IEEE/ACM Transactions on Audio, Speech and Language Processing Vol. 32 page: 2777 - 2789 2024.5
Audio difference learning for audio captioning Reviewed
T. Komatsu, Y. Fujita, K. Takeda, T. Toda
Proc. IEEE ICASSP page: 1456 - 1460 2024.4
ConvNeXt-TTS and ConvNeXt-VC: ConvNeXt-based fast end-to-end sequence-to-sequence text-to-speech and voice conversion Reviewed
T. Okamoto, Y. Ohtani, T. Toda, H. Kawai
Proc. IEEE ICASSP page: 12456 - 12460 2024.4
MF-AED-AEC: speech emotion recognition by leveraging multimodal fusion, ASR error detection, and ASR error correction Reviewed International coauthorship
J. He, X. Shi, X. Li, T. Toda
Proc. IEEE ICASSP page: 11066 - 11070 2024.4
Electrolaryngeal speech intelligibility enhancement through robust linguistic encoders Reviewed
L.P. Violeta, W.-C. Huang, D. Ma, R. Yamamoto, K. Kobayashi, T. Toda
Proc. IEEE ICASSP page: 10961 - 10965 2024.4
FIRNET: fundamental frequency controllable fast neural vocoder with trainable finite impulse response filter Reviewed
Y. Ohtani, T. Okamoto, T. Toda, H. Kawai
Proc. IEEE ICASSP page: 10871 - 10875 2024.4
An investigation of fundamental frequency pattern prediction for Japanese eelectrolaryngeal speech enhancement based on frame-wise phoneme representations Reviewed
M. Eshghi, T. Toda
IEEE Access Vol. 12 page: 50137 - 50153 2024.4
Dual-channel target speaker extraction based on conditional variational autoencoder and directional information Reviewed
R. Wang, L. Li, T. Toda
IEEE/ACM Transactions on Audio, Speech and Language Processing Vol. 32 page: 12 pages 2024.3
Fast neural speech waveform generative models with fully-connected layer-based upsampling Reviewed
H. Yamashita, T. Okamoto, R. Takashima, Y. Ohtani, T. Takiguchi, T. Toda, H. Kawai
IEEE Access Vol. 12 page: 31409 - 31421 2024.2
喉頭摘出者における音声収録アプリを用いた術前音声の保存 ―Save the Voice プロジェクト― Reviewed
西尾 直樹, 戸田 智基, 小林 和弘, 三谷 壮平, 飴矢 美里, 向山 宣昭, 木村 宏之, 徳倉 達也, 坪井 崇, 藤本 保志, 曾根 三千彦
喉頭 Vol. 35 ( 2 ) page: 142 - 147 2023.12
The Singing Voice Conversion Challenge 2023 Reviewed International coauthorship
W.-C. Huang, L.P. Violeta, S. Liu, J. Shi, T. Toda
Proc. IEEE ASRU page: 8 pages 2023.12
ED-CEC: improving rare word recognition using ASR post-processing based on error detection and context-aware error correction Reviewed
J. He, Z. Yang, T. Toda
Proc. IEEE ASRU page: 6 pages 2023.12
Improving severity preservation of healthy-to-pathological voice conversion with global style tokens Reviewed International coauthorship
B. Halpern, W.-C. Huang, L.P. Violeta, R. van Son, T. Toda
Proc. IEEE ASRU page: 7 pages 2023.12
A comparative study of voice conversion models with large-scale speech and singing data: the T13 systems for the Singing Voice Conversion Challenge 2023 Reviewed
R. Yamamoto, R. Yoneyama, L.P. Violeta, W.-C. Huang, T. Toda
Proc. IEEE ASRU page: 6 pages 2023.12
The VoiceMOS Challenge 2023: zero-shot subjective speech quality prediction for multiple domains Reviewed International coauthorship
E. Cooper, W.-C. Huang, Y. Tsao, H.-M. Wang, T. Toda, J. Yamagishi
Proc. IEEE ASRU page: 7 pages 2023.12
WaveNeXt: ConvNeXt-based fast neural vocoder without iSTFT layer Reviewed
T. Okamoto, H. Yamashita, Y. Ohtani, T. Toda, H. Kawai
Proc. IEEE ASRU page: 8 pages 2023.12
Sequence-to-sequence network training methods for automatic guitar transcription with tokenized outputs Reviewed
S. Kim, K. Takeda, T. Toda
Proc. ISMIR page: 524 - 531 2023.11
Evaluating methods for ground-truth-free foreign accent conversion Reviewed
W.-C. Huang, T. Toda
Proc. APSIPA ASC page: 1136 - 1141 2023.11
An analysis of personalized speech recognition system development for the deaf and hard-of-hearing Reviewed
L.P. Violeta, T. Toda
Proc. APSIPA ASC page: 1851 - 1856 2023.11
Semi-supervised multimodal emotion recognition with consensus decision-making and label correction Reviewed International coauthorship
J. Tian, D. Hu, X. Shi, J. He, X. Li, Y. Gao, T. Toda, X. Xu, X. Hu
Proc. MRAC page: 67 - 73 2023.10
Differentiable representation of warping based on Lie group theory Reviewed
A. Miyashita, T. Toda
Proc. IEEE WASPAA page: 5 pages 2023.10
Directional target speaker extraction under noisy underdetermined conditions through conditional variational autoencoder with global style tokens Reviewed
R. Wang, T. Toda
Proc. IEEE WASPAA page: 5 pages 2023.10
Sound field interpolation with unsupervised calibration for freely spaced circular microphone array in rotation-robust beamforming Reviewed
S. Luan, Y. Wakabayashi, T. Toda
Proc.EUSIPCO page: 21 - 25 2023.9
High-fidelity and pitch-controllable neural vocoder based on unified source-filter networks Reviewed
R. Yoneyama, Y.-C. Wu, T. Toda
IEEE/ACM Transactions on Audio, Speech and Language Processing Vol. 31 page: 3717 - 3729 2023.9
Noisy-to-noisy voice conversion under variations of noisy condition Reviewed
C. Xie, T. Toda
IEEE/ACM Transactions on Audio, Speech and Language Processing Vol. 31 page: 3871 - 3882 2023.9
Preference-based training framework for automatic speech quality assessment using deep neural network Reviewed
C.-H. Hu, Y. Yasuda, T. Toda
Proc. INTERSPEECH page: 546 - 550 2023.8
Analysis of mean opinion scores in subjective evaluation of synthetic speech based on tail probabilities Reviewed
Y. Yasuda, T. Toda
Proc. INTERSPEECH page: 5491 - 5495 2023.8
Reverberation-controllable voice conversion using reverberation time estimator Reviewed
Y. Choi, C. Xie, T. Toda
Proc. INTERSPEECH page: 2103 - 2107 2023.8
E2E-S2S-VC: end-to-end sequence-to-sequence voice conversion Reviewed
T. Okamoto, H. Yamashita, T. Toda, H. Kawai
Proc. INTERSPEECH page: 2043 - 2047 2023.8
Emotion awareness in multi-utterance turn for improving emotion prediction in multi-speaker conversation Reviewed International coauthorship
X. Shi, X. Li, T. Toda
Proc. INTERSPEECH page: 765 - 769 2023.8
Representation of vocal tract length transformation based on group theory Reviewed
A. Miyashita, T. Toda
Proc. IEEE ICASSP page: 5 pages 2023.6
Analysis of Noisy-target Training for DNN-based speech enhancement Reviewed
T. Fujimura, T. Toda
Proc. IEEE ICASSP page: 5 pages 2023.6
Intermediate fine-tuning using imperfect synthetic speech for improving electrolaryngeal speech recognition Reviewed
L.P. Violeta, D. Ma, W.-C. Huang, T. Toda
Proc. IEEE ICASSP page: 5 pages 2023.6
Source-Filter HiFiGAN: fast and pitch controllable high-fidelity neural vocoder Reviewed International coauthorship
R. Yoneyama, Y.-C. Wu, T. Toda
Proc. IEEE ICASSP page: 5 pages 2023.6
NNSVS: a neural network based singing voice synthesis toolkit Reviewed
R. Yamamoto, R. Yoneyama, T. Toda
Proc. IEEE ICASSP page: 5 pages 2023.6
Low-latency electrolaryngeal speech enhancement based on FastSpeech2-based voice conversion and self-supervised speech representation Reviewed
K. Kobayashi, T. Hayashi, T. Toda
Proc. IEEE ICASSP page: 5 pages 2023.6
Text-to-speech synthesis based on latent variable conversion using diffusion probabilistic model and variational autoencoder Reviewed
Y. Yasuda, T. Toda
Proc. IEEE ICASSP page: 5 pages 2023.6
Harmonic-Net: fundamental frequency and speech rate controllable fast neural vocoder Reviewed
K. Matsubara, T. Okamoto, R. Takashima, T. Takiguchi, T. Toda, H. Kawai
IEEE/ACM Transactions on Audio, Speech and Language Processing Vol. 31 page: 1902 - 1915 2023.5
Two-stage training method for Japanese electrolaryngeal speech enhancement based on sequence-to-sequence voice conversion Reviewed
D. Ma, L.P. Violeta, K. Kobayashi, T. Toda
Proc. IEEE SLT page: 949 - 954 2023.1
Music similarity calculation of individual instrumental sounds using metric learning Reviewed
Y. Hashizume, L. Li, T. Toda
Proc. APSIPA ASC page: 33 - 38 2022.11
Sequence-wise optimization for quasi-harmonic speech waveform modeling Reviewed
S. Chen, T. Toda
Proc. APSIPA ASC page: 1658 - 1663 2022.11
Direction-aware target speaker extraction with a dual-channel system based on conditional variational autoencoders under underdetermined conditions Reviewed
R. Wang, L. Li, T. Toda
Proc. APSIPA ASC page: 347 - 353 2022.11
Interpretable control for emotional text-to-speech system toward development of sympathetic educational-support robots Reviewed
J. Feng, T. Yoshikawa, T. Toda
Proc. APSIPA ASC page: 342 - 346 2022.11
A comparative study of self-supervised speech representation based voice conversion Reviewed International coauthorship
W.-C. Huang, S.-W. Yang, T. Hayashi, T. Toda
IEEE Journal of Selected Topics in Signal Processing Vol. 16 ( 6 ) page: 1308 - 1318 2022.10
Investigation of Japanese Png BERT language model in text-to-speech synthesis for pitch accent language Reviewed
Y. Yasuda, T. Toda
IEEE Journal of Selected Topics in Signal Processing Vol. 16 ( 6 ) page: 1319 - 1328 2022.10
A cyclical approach to synthetic and natural speech mismatch refinement of neural post-filter for low-cost text-to-speech system Reviewed
Y.-C. Wu, P.L. Tobing, K. Yasuhara, N. Matsunaga, Y. Ohtani, T. Toda
APSIPA Transactions on Signal and Information Processing Vol. 11 ( e30 ) page: 1 - 32 2022.9
Investigating self-supervised pretraining frameworks for pathological speech recognition Reviewed
L.P. Violeta, W.-C. Huang, T. Toda
Proc. INTERSPEECH page: 41 - 45 2022.9
Unified source-filter GAN with harmonic-plus-noise source excitation generation Reviewed
R. Yoneyama, Y.-C. Wu, T. Toda
Proc. INTERSPEECH page: 848 - 852 2022.9
The VoiceMOS Challenge 2022 Reviewed International coauthorship
W.-C. Huang, E. Cooper, Y. Tsao, H.-M. Wang, T. Toda, J. Yamagishi
Proc. INTERSPEECH page: 4536 - 4540 2022.9
Spoken-text-style transfer with conditional variational autoencoder and content word storage Reviewed
D. Yoshioka, Y. Yaduda, N. Matsunaga, Y. Ohtani, T. Toda
Proc. INTERSPEECH page: 4576 - 4580 2022.9
An evaluation of three-stage voice conversion framework for noisy and reverberant conditions Reviewed
Y. Choi, C. Xie, T. Toda
Proc. INTERSPEECH page: 4910 - 4914 2022.9
Improvement of anomalous sound detection method considering the distribution of embedding Invited Reviewed
I. Kuroyanagi, T. Hayashi, K. Takeda, T. Toda
Proc. ICA page: 5 pages 2022.9
Noisy-to-noisy voice conversion with pre-training strategy Invited Reviewed
C. Xie, T. Toda
Proc. ICA page: 5 pages 2022.9
Note-level automatic guitar transcription using attention mechanism Reviewed
S. Kim, T. Hayashi, T. Toda
Proc. EUSIPCO page: 229 - 233 2022.8
Improvement of serial approach to anomalous sound detection by incorporating two binary cross-entropies for outlier exposure Reviewed
I. Kuroyanagi, T. Hayashi, K. Takeda, T. Toda
Proc. EUSIPCO page: 294 - 298 2022.8
Modified sound field interpolation method for rotation-robust beamforming with unequally spaced circular microphone array Reviewed
S. Luan, Y. Wakabayashi, T. Toda
Proc. EUSIPCO page: 344 - 348 2022.8
Generalization ability of MOS prediction networks Reviewed
E. Cooper, W.-C. Huang, T. Toda, J. Yamagishi
Proc. IEEE ICASSP page: 8442 - 8446 2022.5
LDNet: unified listener dependent modeling in MOS prediction for synthetic speech Reviewed
W.-C. Huang, E. Cooper, J. Yamagishi, T. Toda
Proc. IEEE ICASSP page: 896 - 900 2022.5
S3PRL-VC: open-source voice conversion framework with self-supervised speech representations Reviewed International coauthorship
W.-C. Huang, S.-W. Yang, T. Hayashi, H.-Y. Lee, S. Watanabe, T. Toda
Proc. IEEE ICASSP page: 6552 - 6556 2022.5
Towards identity preserving normal to dysarthric voice conversion Reviewed International coauthorship
W.-C. Huang, B.M Halpern, L.P. Violeta, O. Scharenborg, T. Toda
Proc. IEEE ICASSP page: 6672 - 6676 2022.5
Direct noisy speech modeling for noisy-to-noisy voice conversion Reviewed
C. Xie, Y-.C. Wu, P.L. Tobing, W-.C. Huang, T. Toda
Proc. IEEE ICASSP page: 6787 - 6791 2022.5
An investigation of streaming non-autoregressive sequence-to-sequence voice conversion Reviewed
T. Hayashi, K. Kobayashi, T. Toda
Proc. IEEE ICASSP page: 6802 - 6806 2022.5
Comparison of real-time multi-speaker neural vocoders on CPUs Reviewed
K. Matsubara, T. Okamoto, R. Takashima, T. Takiguchi, T. Toda, H. Kawai
Acoustical Science and Technology, Acoustical Letter Vol. 43 ( 2 ) page: 121 - 124 2022.3
Neural speech-rate conversion with multispeaker WaveNet vocoder Reviewed
T. Okamoto, K. Matsubara, T. Toda, Y. Shiga, H. Kawai
Speech Communication Vol. 138 page: 1 - 12 2022.3
S3PRL-VC: open-source voice conversion framework with self-supervised speech representations Reviewed International coauthorship
W.-C. Huang, S.-W. Yang, T. Hayashi, H.-Y. Lee, S. Watanabe, T. Toda
Proc. AAAI-22 Workshop, W35: Self-Supervised Learning for Audio and Speech Processing page: 5 pages 2022.2
Multi-stream HiFi-GAN with data-driven waveform decomposition Reviewed
T. Okamoto, T. Toda, H. Kawai
Proc. IEEE ASRU page: 610 - 617 2021.12
On prosody modeling for ASR+TTS based voice conversion Reviewed International coauthorship
W.-C. Huang, T. Hayashi, X. Li, S. Watanabe, T. Toda
Proc. IEEE ASRU page: 642 - 649 2021.12
Mandarin electrolaryngeal speech voice conversion with sequence-to-sequence modeling Reviewed International coauthorship
M.-C. Yen, W.-C. Huang, K. Kobayashi, Y.-H. Peng, S.-W. Tasi, Y. Tsao, T. Toda, J.-S. R. Jang, H.-M. Wang
Proc. IEEE ASRU page: 650 - 657 2021.12
HASA-Net: a non-intrusive hearing-aid speech assessment network Reviewed International coauthorship
H.-T. Chiang, Y.-C. Wu, C. Yu, T. Toda, H.-M. Wang, Y.-C. Hu, Y. Tsao
Proc. IEEE ASRU page: 907 - 913 2021.12
Mandarin electro-laryngeal speech enhancement based on statistical voice conversion and manual tone control Reviewed International coauthorship
Z. Qian, H. Niu, L. Wang, K. Kobayashi, S. Zhang, T. Toda
Proc. APSIPA ASC page: 546 - 552 2021.12
Noisy-to-noisy voice conversion framework with denoising model Reviewed
C. Xie, Y.-C. Wu, P.L. Tobing, W.-C. Huang, T. Toda
Proc. APSIPA ASC page: 814 - 820 2021.12
Investigation of text-to-speech-based synthetic parallel data for sequence-to-sequence non-parallel voice conversion Reviewed
D. Ma, W.-C. Huang, T. Toda
Proc. APSIPA ASC page: 870 - 877 2021.12
Time alignment using lip images for frame-based electrolaryngeal voice conversion Reviewed International coauthorship
Y.-S. Liou, W.-C. Huang, M.-C. Yen, S.-W. Tsai, Y.-H. Peng, T. Toda, Y. Tsao, H.-M. Wang
Proc. APSIPA ASC page: 1234 - 1238 2021.12
An ensemble approach to anomalous sound detection based on conformer-based autoencoder and binary classifier incorporated with metric learning Reviewed
I. Kuroyanagi, T. Hayashi, Y. Adachi, T. Yoshimura, K. Takeda, T. Toda
Proc. DCASE 2021 Workshop page: 110 - 114 2021.11
Singing fundamental frequency contour generation using generalized command response model and score-conditional variational autoencoder Reviewed
S. Seki, H. Taga, T. Toda
Proc. IEEE MLSP page: 1 - 6 2021.10
Singing fundamental frequency contour generation using generalized command response model and score-conditional variational autoencoder Reviewed
S. Seki, H. Taga, T. Toda
Proc. IEEE MLSP page: 6 pages 2021.10
Anomalous sound detection using a binary classification model and class centroids Reviewed
I. Kuroyanagi, T. Hayashi, K. Takeda, T. Toda
Proc. EUSIPCO page: 1995 - 1999 2021.8
学習支援サービスの運用とオンデマンド型を中心としたオンライン授業への展開――名古屋大学における事例――
戸田 智基, 大平 茂輝, 後藤 明史, 出口 大輔, 森 健策
電子情報通信学会誌 Vol. 104 ( 8 ) page: 862 - 866 2021.8
Relational data selection for data augmentation of speaker-dependent multi-band MelGAN vocoder Reviewed International coauthorship
Y.-C. Wu, C.-H. Hu, H.-S. Lee, Y.-H. Peng, W.-C. Huang, Y. Tsao, H.-M. Wang, T. Toda
Proc. INTERSPEECH page: 3630 - 3634 2021.8
High-fidelity and low-latency universal neural vocoder based on multiband WaveRNN with data-driven linear prediction for discrete waveform modeling Reviewed
P.L. Tobing, T. Toda
Proc. INTERSPEECH page: 2217 - 2221 2021.8
Unified source-filter GAN: unified source-filter network based on factorization of quasi-periodic parallel WaveGAN Reviewed
R. Yoneyama, Y.-C. Wu, T. Toda
Proc. INTERSPEECH page: 2187 - 2191 2021.8
A preliminary study of a two-stage paradigm for preserving speaker identity in dysarthric voice conversion Reviewed International coauthorship
W.-C. Huang, K. Kobayashi, Y.-H. Peng, C.-F. Liu, Y. Tsao, H.-M. Wang, T. Toda
Proc. INTERSPEECH page: 1329 - 1333 2021.8
Low-latency real-time non-parallel voice conversion based on cyclic variational autoencoder and multiband WaveRNN with data-driven linear prediction Reviewed
P.L. Tobing, T. Toda
Proc. 11th ISCA Speech Synthesis Workshop (SSW11) page: 142 - 147 2021.8
Full-band LPCNet: a real-time neural vocoder for 48 kHz audio with a CPU Reviewed
K. Matsubara, T. Okamoto, R. Takashima, T. Takiguchi, T. Toda, Y. Shiga, H. Kawai
IEEE Access Vol. 9 page: 94923 - 94933 2021.7
Crank: an open-source software for nonparallel voice conversion based on vector-quantized variational autoencoder Reviewed
K. Kobayashi, W.-C. Huang, Y.-C. Wu, P.L. Tobing, T. Hayashi, T. Toda
Proc. IEEE ICASSP page: 5934 - 5938 2021.6
Speech recognition by simply fine-tuning BERT Reviewed International coauthorship
W.-C. Huang, C.-H. Wu, S.-B. Luo, K.-Y. Chen, H.-M. Wang, T. Toda
Proc. IEEE ICASSP page: 7343 - 7347 2021.6
Non-autoregressive sequence-to-sequence voice conversion Reviewed
T. Hayashi, W.-C. Huang, K. Kobayashi, T. Toda
Proc. IEEE ICASSP page: 7068 - 7072 2021.6
High-intelligibility speech synthesis for dysarthric speakers with LPCNet-based TTS and CycleVAE-based VC Reviewed
K. Matsubara, T. Okamoto, R. Takashima, T. Takiguchi, T. Toda, Y. Shiga, H. Kawai
Proc. IEEE ICASSP page: 7058 - 7062 2021.6
Speech emotion recognition based on listener adaptive models Reviewed
A. Ando, R. Masumura, H. Sato, T. Moriya, T. Ashihara, Y. Ijima, T. Toda
Proc. IEEE ICASSP page: 6274 - 6278 2021.6
Noise level limited sub-modeling for diffusion probabilistic vocoders Reviewed
T. Okamoto, T. Toda, Y. Shiga, H. Kawai
Proc. IEEE ICASSP page: 6029 - 6033 2021.6
Any-to-one sequence-to-sequence voice conversion using self-supervised discrete speech representations Reviewed
W.-C. Huang, Y.-C. Wu, T. Hayashi, T. Toda
Proc. IEEE ICASSP page: 5944 - 5948 2021.6
Speech emotion recognition based on listener-dependent emotion perception models Reviewed
A. Ando, T. Mori, S. Kobashikawa, T. Toda
APSIPA Transactions on Signal and Information Processing Vol. 10 ( e6 ) page: 1 - 11 2021.4
Quasi-periodic WaveNet: an autoregressive raw waveform generative model with pitch-dependent dilated convolution neural network Reviewed
Y.-C. Wu, T. Hayashi, P.L. Tobing, K. Kobayashi, T. Toda
IEEE/ACM Transactions on Audio, Speech and Language Processing Vol. 29 page: 1134 - 1148 2021.3
Pretraining techniques for sequence-to-sequence voice conversion Reviewed
W.-C. Huang, T. Hayashi, Y.-C. Wu, H. Kameoka, T. Toda
IEEE/ACM Transactions on Audio, Speech and Language Processing Vol. 29 page: 745 - 755 2021.2
Quasi-periodic parallel WaveGAN: a non-autoregressive raw waveform generative model with pitch-dependent dilated convolution neural network Reviewed
Y.-C. Wu, T. Hayashi, T. Okamoto, H. Kawai, T. Toda
IEEE/ACM Transactions on Audio, Speech and Language Processing Vol. 29 page: 792 - 806 2021.2
Many-to-many voice transformer network Reviewed
H. Kameoka, W.-C. Huang, K. Tanaka, T. Kaneko, N. Hojo, T. Toda
IEEE/ACM Transactions on Audio, Speech and Language Processing Vol. 29 page: 656 - 670 2021.1
Investigation of training data size for real-time neural vocoders on CPUs Reviewed
K. Matsubara, T. Okamoto, R. Takashima, T. Takiguchi, T. Toda, Y. Shiga, H. Kawai
Acoustical Science and Technology, Acoustical Letter Vol. 42 ( 1 ) page: 65 - 68 2021.1
Cross-lingual voice conversion using cyclic variational auto-encoder and a WaveNet vocoder Reviewed
H. Nakatani, P.L. Tobing, K. Takeda, T. Toda
Proc. APSIPA ASC page: 520 - 526 2020.12
Phoneme embeddings on predicting fundamental frequency pattern for electrolaryngeal speech Reviewed
M. Eshghi, K. Kobayashi, K. Tanaka, H. Kameoka, T. Toda
Proc. APSIPA ASC page: 572 - 577 2020.12
ASVspoof 2019: a large-scale public database of synthetic, converted and replayed speech Reviewed International coauthorship
X. Wang, J. Yamagishi, M. Todisco, H. Delgado, A. Nautsch, N. Evans, M. Sahidullah, V. Vestman, T. Kinnunen, K.A. Lee, L. Juvela, P. Alku, Y.-H. Peng, H.-T. Hwang, Y. Tsao, H.-M. Wang, S. Le Maguer, M. Becker, F. Henderson, R. Clark, Y. Zhang, Q. Wang, Y. Jia, K. Onuma, K. Mushika, T. Kaneda, Y. Jiang, L.-J. Liu, Y.-C. Wu, W.-C. Huang, T. Toda, K. Tanaka, H. Kameoka, I. Steiner, D. Matrouf, J.-F. Bonastre, A. Govender, S. Ronanki, J.-X. Zhang, Z.-H. Ling
Computer Speech and Language Vol. 64 ( Article 101114 ) page: 1 - 27 2020.11
Conformer-based sound event detection with semi-supervised learning and data augmentation Reviewed International coauthorship
K. Miyazaki, T. Komatsu, T. Hayashi, S. Watanabe, T. Toda, K. Takeda
Proc. DCASE 2020 Workshop page: 100 - 104 2020.11
An evaluation of voice conversion with neural network spectral mapping models and WaveNet vocoder Reviewed
P.L. Tobing, Y.-C. Wu, T. Hayashi, K. Kobayashi, T. Toda
APSIPA Transactions on Signal and Information Processing Vol. 9 ( e26, ) page: 1 - 14 2020.11
Quasi-periodic parallel WaveGAN vocoder: a non-autoregressive pitch-dependent dilated convolution model for parametric speech generation Reviewed
Y.-C. Wu, T. Hayashi, T. Okamoto, H. Kawai, T. Toda
Proc. INTERSPEECH page: 3535 - 3539 2020.10
The NU voice conversion system for the Voice Conversion Challenge 2020: on the effectiveness of sequence-to-sequence models and autoregressive neural vocoders Reviewed
W.-C. Huang, P.L. Tobing, Y.-C. Wu, K. Kobayashi, T. Toda
Proc. Joint workshop for the Blizzard Challenge and Voice Conversion Challenge 2020 page: 165 - 169 2020.10
The sequence-to-sequence baseline for the Voice Conversion Challenge 2020: cascading ASR and TTS Reviewed International coauthorship
W.-C. Huang, T. Hayashi, S. Watanabe, T. Toda
Proc. Joint workshop for the Blizzard Challenge and Voice Conversion Challenge 2020 page: 160 - 164 2020.10
Baseline system of Voice Conversion Challenge 2020 with cyclic variational autoencoder and parallel WaveGAN Reviewed
P.L. Tobing, Y.-C. Wu, T. Toda
Proc. Joint workshop for the Blizzard Challenge and Voice Conversion Challenge 2020 page: 155 - 159 2020.10
Predictions of subjective ratings and spoofing assessments of Voice Conversion Challenge 2020 submissions Reviewed International coauthorship
R.K. Das, T. Kinnunen, W.-C. Huang, Z. Ling, J. Yamagishi, Z. Yi, X. Tian, T. Toda
Proc. Joint workshop for the Blizzard Challenge and Voice Conversion Challenge 2020 page: 99 - 120 2020.10
Voice Conversion Challenge 2020 -- intra-lingual semi-parallel and cross-lingual voice conversion -- Reviewed International coauthorship
Z. Yi, W.-C. Huang, X. Tian, J. Yamagishi, R.K. Das, T. Kinnunen, Z. Ling, T. Toda
Proc. Joint workshop for the Blizzard Challenge and Voice Conversion Challenge 2020 page: 80 - 98 2020.10
Cyclic spectral modeling for unsupervised unit discovery into voice conversion with excitation and waveform modeling Reviewed
P.L. Tobing, T. Hayashi, Y.-C. Wu, K. Kobayashi, T. Toda
Proc. INTERSPEECH page: 4861 - 4865 2020.10
Voice transformer network: sequence-to-sequence voice conversion using transformer with text-to-speech pretraining Reviewed
W.-C. Huang, T. Hayashi, Y.-C. Wu, H. Kameoka, T. Toda
Proc. INTERSPEECH page: 4676 - 4680 2020.10
Intelligibility enhancement based on speech waveform modification using hearing impairment simulator Reviewed
S. Hikosaka, S. Seki, T. Hayashi, K. Kobayashi, K. Takeda, H. Banno, T. Toda
Proc. INTERSPEECH page: 4059 - 4063 2020.10
Semi-supervised self-produced speech enhancement and suppression based on joint source modeling of air- and body-conducted signals using variational autoencoder Reviewed
S. Seki, M. Takada, T. Toda
Proc. INTERSPEECH page: 4039 - 4043 2020.10
A cyclical post-filtering approach to mismatch refinement of neural vocoder for text-to-speech systems Reviewed
Y.-C. Wu, P.L. Tobing, K. Yasuhara, N. Matsunaga, Y. Ohtani, T. Toda
Proc. INTERSPEECH page: 3540 - 3544 2020.10
Implementation of low-latency electrolaryngeal speech enhancement based on multi-task CLDNN Reviewed
K. Kobayashi, T. Toda
Proc. EUSIPCO page: 396 - 400 2020.8
Semi-supervised enhancement and suppression of self-produced speech using correspondence between air- and body-conducted signals Reviewed
M. Takada, S. Seki, P.L. Tobing, T. Toda
Proc. EUSIPCO page: 456 - 460 2020.8
Weakly-supervised sound event detection with self-attention Reviewed International coauthorship
K. Miyazaki, T. Komatsu, T. Hayashi, S. Watanabe, T. Toda, K. Takeda
Proc. IEEE ICASSP page: 66 - 70 2020.5
ESPNET-TTS: Uunified, reproducible, and integratable open source end-to-end text-to-speech toolkit Reviewed International coauthorship
T. Hayashi, R. Yamamoto, K. Inoue, T. Yoshimura, S. Watanabe, T. Toda, K. Takeda, Y. Zhang, X. Tan
Proc. IEEE ICASSP page: 7654 - 7658 2020.5
Efficient shallow WaveNet vocoder using multiple samples output based on Laplacian distribution and linear prediction Reviewed
P.L. Tobing, Y.-C. Wu, T. Hayashi, K. Kobayashi, T. Toda
Proc. IEEE ICASSP page: 7204 - 7208 2020.5
Transformer-based text-to-speech with weighted forced attention Reviewed
T. Okamoto, T. Toda, Y. Shiga, H. Kawai
Proc. IEEE ICASSP page: 6729 - 6733 2020.5
Non-parallel voice conversion system with WaveNet vocoder and collapsed speech suppression Reviewed
Y.-C. Wu, P.L. Tobing, T. Hayashi, K. Kobayashi, T. Toda
IEEE Access Vol. 8 ( 1 ) page: 62094 - 62106 2020.4
LMS経由で手書きレポートを返却するWebサービス「かみレポ」の開発・評価 Reviewed
大平 茂輝, 清谷 峻也, 伊藤 瑠哉, 岡本 康佑, 谷川 右京, 出口 大輔, 戸田 智基
情報処理学会論文誌:教育とコンピュータ Vol. 6 ( 1 ) page: 52 - 68 2020.2
Customer satisfaction estimation in contact center calls based on a hierarchical multi-task model Reviewed
A. Ando, R. Masumura, H. Kamiyama, S. Kobashikawa, Y. Aono, T. Toda
IEEE/ACM Transactions on Audio, Speech, and Language Processing Vol. 28 ( 1 ) page: 715 - 728 2020.1
Investigation of shallow WaveNet vocoder with Laplacian distribution output Reviewed
P.L. Tobing, T. Hayashi, T. Toda
Proc. IEEE ASRU page: 176 - 183 2019.12
Tacotron-based acoustic model using phoneme alignment for practical neural text-to-speech synthesis Reviewed
T. Okamoto, T. Toda, Y. Shiga, H. Kawai
Proc. IEEE ASRU page: 214 - 221 2019.12
Underdetermined source separation based on generalized multichannel variational autoencoder Reviewed
S. Seki, H. Kameoka, L. Li, T. Toda, K. Takeda
IEEE Access Vol. 7 ( 1 ) page: 168104 - 168115 2019.12
Voice conversion with CycleRNN-based spectral mapping and finely-tuned WaveNet vocoder Reviewed
P.L. Tobing, Y.-C. Wu, T. Hayashi, K. Kobayashi, T. Toda
IEEE Access Vol. 7 ( 1 ) page: 171114 - 171125 2019.12
機械学習と音声生成:音声波形モデリングの進展
戸田 智基
計測と制御 Vol. 58 ( 12 ) page: 951 - 954 2019.12
Improving singing aid system for laryngectomees with statistical voice conversion and VAE-SPACE Reviewed
L. Li, T. Toda, K. Morikawa, K. Kobayashi, S. Makino
Proc. ISMIR page: 784 - 790 2019.11
Development of a real-time bionic voice generation system based on statistical excitation prediction Reviewed International coauthorship
F. Ahmadi, K. Kobayashi, T. Toda
Proc. ACM ASSETS page: 655 - 657 2019.10
統計的手法による音響イベント検出
林 知樹, 戸田 智基
日本音響学会誌 Vol. 75 ( 9 ) page: 532 - 537 2019.9
An investigation of features for fundamental frequency pattern prediction in electrolaryngeal speech enhancement Reviewed
M. Eshghi, K. Tanaka, K. Kobayashi, H. Kameoka, T. Toda
Proc. 10th ISCA Speech Synthesis Workshop (SSW10) page: 251 - 256 2019.9
Statistical voice conversion with quasi-periodic WaveNet vocoder Reviewed
Y.-C. Wu, T. Hayashi, P.L. Tobing, K. Kobayashi, T. Toda
Proc. 10th ISCA Speech Synthesis Workshop (SSW10) page: 63 - 68 2019.9
Generalization of spectrum differential based direct waveform modification for voice conversion Reviewed International coauthorship
W.-C. Huang, Y.-C. Wu, K. Kobayashi, Y.-H. Peng, H.-T. Hwang, P.L. Tobing, Y. Tsao, H.-M. Wang, T. Toda
Proc. 10th ISCA Speech Synthesis Workshop (SSW10) page: 57 - 62 2019.9
Pre-trained text embeddings for enhanced text-to-speech synthesis Reviewed International coauthorship
T. Hayashi, S. Watanabe, T. Toda, K. Takeda, S. Toshniwal, K. Livescu
Proc. INTERSPEECH page: 4430 - 4434 2019.9
Real-time neural text-to-speech with sequence-to-sequence acoustic model and WaveGlow or single Gaussian WaveRNN vocoders Reviewed
T. Okamoto, T. Toda, Y. Shiga, H. Kawai
Proc. INTERSPEECH page: 1308 - 1312 2019.9
Investigation of F0 conditioning and fully convolutional networks in variational autoencoder based voice conversion Reviewed International coauthorship
W.-C. Huang, Y.-C. Wu, C.-C. Lo, P.L. Tobing, T. Hayashi, K. Kobayashi, T. Toda, Y. Tsao, H.-M. Wang
Proc. INTERSPEECH page: 709 - 713 2019.9
Robustness of statistical voice conversion based on direct waveform modification against background sounds Reviewed
Y. Kurita, K. Kobayashi, K. Takeda, T. Toda
Proc. INTERSPEECH page: 684 - 688 2019.9
Non-parallel voice conversion with cyclic variational autoencoder Reviewed
P.L. Tobing, Y.-C. Wu, T. Hayashi, K. Kobayashi, T. Toda
Proc. INTERSPEECH page: 674 - 678 2019.9
Quasi-periodic WaveNet vocoder: a pitch dependent dilated convolution model for parametric speech generation Reviewed
Y.-C. Wu, T. Hayashi, P.L. Tobing, K. Kobayashi, T. Toda
Proc. INTERSPEECH page: 196 - 200 2019.9
Refined WaveNet vocoder for variational autoencoder based voice conversion Reviewed International coauthorship
W.-C. Huang, Y.-C. Wu, H.-T. Hwang, P.L. Tobing, T. Hayashi, K. Kobayashi, T. Toda, Y. Tsao, H.-M. Wang
Proc. EUSIPCO page: 5 pages 2019.9
Generalized multichannel variational autoencoder for underdetermined source separation Reviewed
S. Seki, H. Kameoka, L. Li, T. Toda, K. Takeda
Proc. EUSIPCO page: 5 pages 2019.9
Investigations of real-time Gaussian FFTNet and parallel WaveNet neural vocoders with simple acoustic features Reviewed
T. Okamoto, T. Toda, Y. Shiga, H. Kawai
Proc. IEEE ICASSP page: 7020 - 7024 2019.5
Voice conversion with cyclic recurrent neural network and fine-tuned WaveNet vocoder Reviewed
P.L. Tobing, Y. Wu, T. Hayashi, K. Kobayashi, T. Toda
Proc. IEEE ICASSP page: 6815 - 6819 2019.5
Scene-dependent anomalous acoustic-event detection based on conditional WaveNet and i-Vector Reviewed
T. Komatsu, T. Hayashi, R. Kondo, T. Toda, K. Takeda
Proc. IEEE ICASSP page: 870 - 874 2019.5
Environmental sound processing and its applications Invited Reviewed
K. Miyazaki, T. Toda, T. Hayashi, K. Takeda
IEEJ Transactions on Electronics, Information and Systems Vol. 14 ( 3 ) page: 340 - 351 2019.3
Speech-to-singing voice conversion: the challenges and strategies for improving vocal conversion processes Reviewed International coauthorship
K. Vijayan, H. Li, T. Toda
IEEE Signal Processing Magazine Vol. 36 ( 1 ) page: 95 - 102 2019.1
An end-to-end model for cross-lingual transformation of paralinguistic information Reviewed
T. Kano, S. Takamichi, S. Sakti, G. Neubig, T. Toda, S. Nakamura
Machine Translation Vol. 32 ( 4 ) page: 353 - 368 2018.12
Back-translation-style data augmentation for end-to-end ASR Reviewed International coauthorship
T. Hayashi, S. Watanabe, Y. Zhang, T. Toda, T. Hori, R. Astudillo, K. Takeda
Proc. IEEE SLT page: 426 - 433 2018.12
Improving FFTNet vocoder with noise shaping and subband approaches Reviewed
T. Okamoto, T. Toda, Y. Shiga, H. Kawai
Proc. IEEE SLT page: 304 - 311 2018.12
An evaluation of deep spectral mappings and WaveNet vocoder for voice conversion Reviewed
P.L. Tobing, T. Hayashi, Y. Wu, K. Kobayashi, T. Toda
Proc. IEEE SLT page: 297 - 303 2018.12
Daily activity recognition based on recurrent neural network using multi-modal signals Reviewed
A. Tamamori, T. Hayashi, T. Toda, K. Takeda
APSIPA Transactions on Signal and Information Processing Vol. 7 ( e21 ) page: 1 - 11 2018.12
Self-produced speech enhancement and suppression method using air- and body-conductive microphones Reviewed
M. Takada, S. Seki, T. Toda
Proc. APSIPA ASC page: 1240 - 1245 2018.11
Connectionist temporal classification-based sound event encoder for converting sound events into onomatopoeia representations Reviewed
K. Miyazaki, T. Hayashi, T. Toda, K. Takeda
Proc. EUSIPCO page: 857 - 861 2018.9
音声翻訳システムにおける音声変換の利用
高道 慎之介, 戸田 智基
日本音響学会誌 Vol. 74 ( 9 ) page: 535 - 538 2018.9
Designing a pneumatic bionic voice prosthesis - statistical approach for source excitation generation Reviewed International coauthorship
F. Ahmadi, T. Toda
Proc. INTERSPEECH page: 3142 - 3146 2018.9
Audio-visual voice conversion using deep canonical correlation analysis for deep bottleneck features Reviewed
S. Tamura, K. Horio, H. Endo, S. Hayamizu, T. Toda
Proc. INTERSPEECH page: 2469 - 2473 2018.9
Frequency domain variants of velvet noise and their application to speech processing and synthesis Reviewed
H. Kawahara, K. Sakakibara, M. Morise, H. Banno, T. Toda, T. Irino
Proc. INTERSPEECH page: 2027 - 2031 2018.9
Collapsed segment detection and reduction for WaveNet vocoder Reviewed
Y. Wu, K. Kobayashi, T. Hayashi, P.L. Tobing, T. Toda
Proc. INTERSPEECH page: 1998 - 1992 2018.9
Multi-Head Decoder for end-to-end speech recognition Reviewed International coauthorship
T. Hayashi, S. Watanabe, T. Toda, K. Takeda
Proc. INTERSPEECH page: 801 - 805 2018.9
Anomalous sound event detection based on WaveNet Reviewed
T. Hayashi, T. Komatsu, R. Kondo, T. Toda, K. Takeda
Proc. EUSIPCO page: 2508 - 2512 2018.9
Electrolarygeal speech enhancement with statistical voice conversion based on CLDNN Reviewed
K. Kobayashi, T. Toda
Proc. EUSIPCO page: 2129 - 2133 2018.9
Stereophonic music separation based on non-negative tensor factorization with cepstral distance regularization Reviewed
S. Seki, T. Toda, K. Takeda
IEICE Transactions on Fundamentals Vol. E101-A ( 7 ) page: 1057 - 1064 2018.7
A spoofing benchmark for the 2018 voice conversion challenge: leveraging from spoofing countermeasures for speech artifact assessment Reviewed International coauthorship
T. Kinnunen, J. Lorenzo-Trueba, J. Yamagishi, T. Toda, D. Saito, F. Villavicencio, Z. Ling
Proc. Odyssey 2018 page: 187 - 194 2018.6
NU voice conversion system for the voice conversion challenge 2018 Reviewed
P.L. Tobing, Y. Wu, T. Hayashi, K. Kobayashi, T. Toda
Proc. Odyssey 2018 page: 219 - 226 2018.6
The NU non-parallel voice conversion system for the voice conversion challenge 2018 Reviewed
Y. Wu, P.L. Tobing, T. Hayashi, K. Kobayashi, T. Toda
Proc. Odyssey 2018 page: 211 - 218 2018.6
sprocket: open-source voice conversion software Reviewed
K. Kobayashi, T. Toda
Proc. Odyssey 2018 page: 203 - 210 2018.6
The voice conversion challenge 2018: promoting development of parallel and nonparallel methods Reviewed International coauthorship
J. Lorenzo-Trueba, J. Yamagishi, T. Toda, D. Saito, F. Villavicencio, T. Kinnunen, Z. Ling
Proc. Odyssey 2018 page: 195 - 202 2018.6
Intra-gender statistical singing voice conversion with direct waveform modification using log-spectral differential Reviewed
K. Kobayashi, T. Toda, S. Nakamura
Speech Communication Vol. 99 page: 211 - 220 2018.5
An investigation of subband WaveNet vocoder covering entire audible frequency range with limited acoustic features Reviewed
T. Okamoto, K. Tachibana, T. Toda, Y. Shiga, H. Kawai
Proc. IEEE ICASSP page: 5654 - 5658 2018.4
Development of "KamiRepo" system with automatic student identification to handle handwritten assignments on LMS Reviewed
S. Seiya, R. Ito, K. Okamoto, U. Tanikawa, S. Ohira, D. Deguchi, T. Toda
Proc. IEEE EDUCON page: 841 - 848 2018.4
An investigation of noise shaping with perceptual weighting for WaveNet-based speech generation Reviewed
K. Tachibana, T. Toda, Y. Shiga, H. Kawai
Proc. IEEE ICASSP page: 5664 - 5668 2018.4
Deep neural network-based power spectrum reconstruction to improve quality of vocoded speech with limited acoustic parameters Reviewed
T. Okamoto, K. Tachibana, T. Toda, Y. Shiga, H. Kawai
Acoustical Science and Technology, Acoustical Letter Vol. 39 ( 2 ) page: 163 - 166 2018.3
統計的声質変換ソフトウェア入門 Invited Reviewed
戸田 智基, 小林 和弘
システム/制御/情報 Vol. 62 ( 2 ) page: 69 - 75 2018.2
Daily activity recognition with large-scaled real-life recording datasets based on deep neural network using multi-modal signals Reviewed
T. Hayashi, M. Nishida, N. Kitaoka, T. Toda, K. Takeda
IEICE Transactions on Fundamentals Vol. E101-A ( 1 ) page: 199 - 210 2018.1
Electrolaryngeal speech modification towards singing aid system for laryngectomees Reviewed
K. Morikawa, T. Toda
Proc. APSIPA ASC page: 1 - 4 2017.12
Articulatory controllable speech modification based on statistical inversion and production mappings Reviewed
P.L. Tobing, K. Kobayashi, T. Toda
IEEE/ACM Transactions on Audio, Speech, and Language Processing Vol. 25 ( 12 ) page: 2337 - 2350 2017.12
An investigation of multi-speaker training for WaveNet vocoder Reviewed
T. Hayashi, A. Tamamori, K. Kobayashi, K. Takeda, T. Toda
Proc. IEEE ASRU page: 712 - 718 2017.12
Subband WaveNet with overlapped single-sideband filterbanks Reviewed
T. Okamoto, K. Tachibana, T. Toda, Y. Shiga, H. Kawai
Proc. IEEE ASRU page: 698 - 704 2017.12
Accurate estimation of fo and aperiodicity based on periodicity detector residuals and deviations of phase derivatives Reviewed
H. Kawahara, K. Sakakibara, M. Morise, H. Banno, T. Toda
Proc. APSIPA ASC page: 1 - 9 2017.12
An investigation of how to design control parameters for statistical voice timbre control Reviewed
K. Kubo, K. Kobayashi, T. Toda, G. Neubig, S. Sakti, S. Nakamura
Proc. APSIPA ASC page: 1 - 4 2017.12
Investigation of effectiveness on recurrent neural network for daily activity recognition using multi-modal signals Invited Reviewed
A. Tamamori, T. Hayashi, T. Toda, K. Takeda
Proc. APSIPA ASC page: 1 - 7 2017.12
Deep acoustic-to-articulatory inversion mapping with latent trajectory modeling Reviewed
P.L. Tobing, H. Kameoka, T. Toda
Proc. APSIPA ASC page: 1 - 4 2017.12
Duration-controlled LSTM for polyphonic sound event detection Reviewed International coauthorship
T. Hayashi, S. Watanabe, T. Toda, T. Hori, J. Le Roux, K. Takeda
IEEE/ACM Transactions on Audio, Speech, and Language Processing Vol. 25 ( 11 ) page: 2059 - 2070 2017.11
Missing component restoration for masked speech signals based on time-domain spectrogram factorization Reviewed
S. Seki, H. Kameoka, T. Toda, K. Takeda.
Proc. IEEE MLSP page: 6 pages 2017.9
A vibration control method of an electrolarynx based on statistical F0 pattern prediction Reviewed
K. Tanaka, T. Toda, S. Nakamura
IEICE Transactions on Information and Systems Vol. E100-D ( 9 ) page: 2165 - 2173 2017.9
A modulation property of time-frequency derivatives of filtered phase and its application to aperiodicity and FO estimation Reviewed
H. Kawahara, K. Sakakibara, M. Morise, H. Banno, T. Toda
Proc. INTERSPEECH page: 424 - 428 2017.8
Stereophonic music separation based on non-negative tensor factorization with cepstrum regularization Reviewed
S. Seki, T. Toda, K. Takeda
Proc. EUSIPCO page: 1011 - 1015 2017.8
Speech enhancement using non-negative spectrogram models with mel-generalized cepstral regularization Reviewed
L. Li, H. Kameoka, T. Toda, S. Makino
Proc. INTERSPEECH page: 1998 - 2002 2017.8
A new cosine series antialiasing function and its application to aliasing-free glottal source models for speech and singing synthesis Reviewed
H. Kawahara, K. Sakakibara, H. Banno, M. Morise, T. Toda, T. Irino
Proc. INTERSPEECH page: 1358 - 1362 2017.8
Statistical voice conversion with WaveNet-based waveform generation Reviewed
K. Kobayashi, T. Hayashi, A. Tamamori, T. Toda
Proc. INTERSPEECH page: 1138 - 1142 2017.8
Speaker-dependent WaveNet vocoder Reviewed
A. Tamamori, T. Hayashi, K. Kobayashi, K. Takeda, T. Toda
Proc. INTERSPEECH page: 1118 - 1122 2017.8
Physically constrained statistical F0 prediction for electrolaryngeal speech enhancement Reviewed
K. Tanaka, H. Kameoka, T. Toda, S. Nakamura
Proc. INTERSPEECH page: 1069 - 1073 2017.8
BLSTM-HMM hybrid system combined with sound activity detection network for polyphonic sound event detection Reviewed International coauthorship
T. Hayashi, S. Watanabe, T. Toda, T. Hori, J. Le Roux, K. Takeda
Proc. IEEE ICASSP page: 766 - 770 2017.3
A noise suppression method for body-conducted soft speech based on non-negative tensor factorization of air- and body-conducted signals Reviewed
Y. Tajiri, H. Kameoka, T. Toda
Proc. IEEE ICASSP page: 4960 - 4964 2017.3
Preserving word-level emphasis in speech-to-speech translation Reviewed
Q. Truong Do, T. Toda, G. Neubig, S. Sakti, S. Nakamura
IEEE/ACM Transactions on Audio, Speech and Language Processing Vol. 25 ( 3 ) page: 544 - 556 2017.3
中間言語情報を記憶するピボット翻訳手法 Reviewed
三浦 明波, Graham Neubig, Sakriani Sakti, 戸田 智基, 中村 哲
自然言語処理 Vol. 23 ( 5 ) page: 499 - 528 2016.12
Non-native text-to-speech preserving speaker individuality based on partial correction of prosodic and phonetic characteristics Reviewed
Y. Oshima, S. Takamichi, T. Toda, G. Neubig, S. Sakti, S. Nakamura
IEICE Transactions on Information and Systems Vol. E99-D ( 12 ) page: 3132 - 3139 2016.12
F0 transformation techniques for statistical voice conversion with direct waveform modification with spectral differential Reviewed
K. Kobayashi, T. Toda, S. Nakamura
Proc. IEEE SLT page: 693 - 700 2016.12
Learning cooperative persuasive dialogue policies using framing Reviewed
T. Hiraoka, G. Neubig, S. Sakti, T. Toda, S. Nakamura
Speech Communication Vol. 84 page: 83 - 96 2016.11
Improvements of voice timbre control based on perceived age in singing voice conversion Reviewed
K. Kobayashi, T. Toda, T. Nakano, M. Goto, S. Nakamura
IEICE Transactions on Information and Systems Vol. E99-D ( 11 ) page: 2767 - 2777 2016.11
A statistical sample-based approach to GMM-based voice conversion using tied-covariance acoustic models Reviewed
S. Takamichi, T. Toda, G. Neubig, S. Sakti, S. Nakamura
IEICE Transactions on Information and Systems Vol. E99-D ( 10 ) page: 2490 - 2498 2016.10
Investigation on recurrent neural network architectures for daily activity recognition Reviewed
A. Tamamori, T. Hayashi, T. Toda, K. Takeda
Proc. UV2016 page: 1 - 4 2016.10
Nonaudible murmur enhancement based on statistical voice conversion and noise suppression with external noise monitoring Reviewed
Y. Tajiri, T. Toda
Proc. 9th ISCA Speech Synthesis Workshop (SSW9) page: 54 - 60 2016.9
Acoustic-to-articulatory inversion mapping based on latent trajectory Gaussian mixture model Reviewed
P.L. Tobing, T. Toda, H. Kameoka, S. Nakamura
Proc. INTERSPEECH page: 953 - 957 2016.9
The Voice Conversion Challenge 2016 Reviewed International coauthorship
T. Toda, L.-H. Chen, D. Saito, F. Villavicencio, M. Wester, Z. Wu, J. Yamagishi
Proc. INTERSPEECH page: 1632 - 1636 2016.9
The NU-NAIST voice conversion system for the Voice Conversion Challenge 2016 Reviewed
K. Kobayashi, S. Takamichi, S. Nakamura, T. Toda
Proc. INTERSPEECH page: 1667 - 1671 2016.9
Model integration for HMM- and DNN-based speech synthesis using Product-of-Experts framework Reviewed
K. Tachibana, T. Toda, Y. Shiga, H. Kawai
Proc. INTERSPEECH page: 2288 - 2292 2016.9
A hybrid system for continuous word-level emphasis modeling based on HMM state clustering and adaptive training Reviewed
Q. Truong Do, T. Toda, G. Neubig, S. Sakti, S. Nakamura
Proc. INTERSPEECH page: 3196 - 3200 2016.9
Removing noise from event-related potentials using a probabilistic generative model with grouped covariance matrices Reviewed
H. Maki, T. Toda, S. Sakti, G. Neubig, S. Nakamura
Proc. IEEE EMBC page: 1 - 4 2016.8
Teaching social communication skills through human-agent interaction Reviewed
H. Tanaka, S. Sakti, G. Neubig, T. Toda, H. Negoro, H. Iwasaka, S. Nakamura
ACM Transactions on Interactive Intelligent Systems Vol. 6 ( 2 ) page: 1 - 23 2016.8
Bidirectional LSTM-HMM hybrid system for polyphonic sound event detection Reviewed International coauthorship
T. Hayashi, S. Watanabe, T. Toda, T. Hori, J. Le Roux, K. Takeda
Proc. DCASE2016 workshop page: 1 - 5 2016.8
Real-time vibration control of an electrolarynx based on statistical F0 contour prediction Reviewed
K. Tanaka, T. Toda, G. Neubig, S. Nakamura
Proc. EUSIPCO page: 1333 - 1337 2016.8
Enhancing event-related potentials based on maximum a posteriori estimation with a spatial correlation prior Reviewed
H. Maki, T. Toda, S. Sakti, G. Neubig, S. Nakamura
IEICE Transactions on Information and Systems Vol. E99-D ( 6 ) page: 1410 - 1419 2016.6
はじめての音声変換
戸田 智基
日本音響学会誌 Vol. 72 ( 6 ) page: 324 - 331 2016.6
Anti-spoofing for text-independent speaker verification: an initial database, comparison of countermeasures, and human performance Reviewed International coauthorship
Z. Wu, P. De Leon, C. Demiroglu, A. Khodabakhsh, S. King, Z.-H. Ling, D. Saito, B. Stewart, T. Toda, M. Wester, J. Yamagishi
IEEE/ACM Transactions on Audio, Speech and Language Processing Vol. 24 ( 4 ) page: 768 - 783 2016.4
Post-filters to modify the modulation spectrum for statistical parametric speech synthesis Reviewed International coauthorship
S. Takamichi, T. Toda, A.W. Black, G. Neubig, S. Sakti, S. Nakamura
IEEE/ACM Transactions on Audio, Speech and Language Processing Vol. 24 ( 4 ) page: 755 - 767 2016.4
Implementation of F0 transformation for statistical singing voice conversion based on direct waveform modification Reviewed
K. Kobayashi, T. Toda, S. Nakamura
Proc. IEEE ICASSP page: 5670 - 5674 2016.3
An estimation method of voice timbre evaluation values using feature extraction with Gaussian mixture model based on reference singer Reviewed
S. Yamane, K. Kobayashi, T. Toda, T. Nakano, M. Goto, S. Nakamura
Proc. IEEE ICASSP page: 5265 - 5269 2016.3
Statistical F0 prediction for electrolaryngeal speech enhancement considering generative process of F0 contours within product of experts framework Reviewed
K. Tanaka, H. Kameoka, T. Toda, S. Nakamura
Proc. IEEE ICASSP page: 5665 - 5669 2016.3
Noise suppression method for body-conducted soft speech enhancement based on external noise monitoring Reviewed
Y. Tajiri, T. Toda, S. Nakamura
Proc. IEEE ICASSP page: 5935 - 5939 2016.3
A dialog system to detect deception Reviewed
Y. Tsunomori, G. Neubig, T. Hiraoka, M. Mizukami, S. Sakti, T. Toda, S. Nakamura
Proc. IWSDS page: 1 - 6 2016.1
Example based dialogue system based on satisfaction prediction Reviewed
Vol. 31 ( 1 ) page: 1 - 12 2016.1
Active learning for example-based dialog systems Reviewed
T. Hiraoka, G. Neubig, K. Yoshino, T. Toda, S. Nakamura
Proc. IWSDS page: 1 - 11 2016.1
機械翻訳システムの誤り分析のための誤り箇所選択手法 Reviewed
赤部 晃一, Graham Neubig, Sakriani Sakti, 戸田 智基, 中村 哲
自然言語処理 Vol. 23 ( 1 ) page: 88 - 117 2016.1
Improving translation of emphasis with pause prediction in speech-to-speech translation systems Reviewed
Q. Truong Do, S. Sakti, G. Neubig, T. Toda, S. Nakamura
Proc. IWSLT page: 204 - 208 2015.12
Semantic parsing of ambiguous input through paraphrasing and verification Reviewed
P. Arthur, G. Neubig, S. Sakti, T. Toda, S. Nakamura
Transactions of the Association for Computational Linguistics Vol. 3 page: 571 - 584 2015.12
Adaptive selection from multiple response candidates in example-based dialogue Reviewed
M. Mizukami, H. Kizuki, T. Nomura, G. Neubig, K. Yoshino, S. Sakti, T. Toda, S. Nakamura
Proc. IEEE ASRU page: 784 - 790 2015.12
A study of social-affective communication: automatic prediction of emotion triggers and responses in television talk shows Reviewed
N. Lubis, S. Sakti, G. Neubig, K. Yoshino, T. Toda, S. Nakamura
Proc. IEEE ASRU page: 777 - 783 2015.12
The NAIST ASR system for the 2015 Multi-Genre Broadcast Challenge: on combination of deep learning systems using a rank-score function Reviewed
Q. Truong Do, M. Heck, S. Sakti, G. Neubig, T. Toda, S. Nakamura
Proc. IEEE ASRU page: 654 - 659 2015.12
Incremental sentence compression using LSTM recurrent networks Reviewed International coauthorship
S. Sakti, F. Ilham, G. Neubig, T. Toda, Purwarianti, S. Nakamura
Proc. IEEE ASRU page: 252 - 258 2015.12
Aliasing-free implementation of discrete-time glottal source models and their applications to speech synthesis and F0 extractor evaluation Reviewed
H. Kawahara, K. Sakakibara, H. Banno, M. Morise, T. Toda, T. Irino
Proc. APSIPA ASC page: 520 - 529 2015.12
Learning to generate pseudo-code from source code using statistical machine translation Reviewed
Y. Oda, H. Fudaba, G. Neubig, H. Hata, S. Sakti, T. Toda, S. Nakamura
Proc. ASE page: 1 - 11 2015.11
Pseudogen: a tool to automatically generate pseudo-code from source code Reviewed
H. Fudaba, Y. Oda, K. Akabe, G. Neubig, H. Hata, S. Sakti, T. Toda, S. Nakamura
Proc. ASE page: 1 - 6 2015.11
An enhanced electrolarynx with automatic fundamental frequency control based on statistical prediction Reviewed
K. Tanaka, T. Toda, G. Neubig, S. Sakti, S. Nakamura
Proc. ASSETS page: 435 - 436 2015.10
Construction and analysis of social-affective interaction corpus in English and Indonesian Reviewed
N. Lubis, S. Sakti, G. Neubig, T. Toda, S. Nakamura
Proc. O-COCOSDA page: 202 - 206 2015.10
An investigation of machine translation evaluation metrics in cross-lingual question answering Reviewed
K. Sugiyama, M. Mizukami, G. Neubig, K. Yoshino, S. Sakti, T. Toda, S. Nakamur
Proc. 10th Workshop on Statistical Machine Translation page: 442 - 449 2015.9
Preserving word-level emphasis in speech-to-speech translation using linear regression HSMMs Reviewed
D.Q. Truong, S. Takamichi, S. Sakti, G. Neubig, T. Toda, S. Nakamura
Proc. INTERSPEECH page: 3665 - 3669 2015.9
Articulatory controllable speech modification based on Gaussian mixture models with direct waveform modification using spectrum differential Reviewed
P.L. Tobing, K. Kobayashi, T. Toda, G. Neubig, S. Sakti, S. Nakamura
Proc. INTERSPEECH page: 3350 - 3354 2015.9
Non-audible murmur enhancement based on statistical conversion using air- and body-conductive microphones in noisy environments Reviewed
Y. Tajiri, K. Tanaka, T. Toda, G. Neubig, S. Sakti, S. Nakamura
Proc. INTERSPEECH page: 2769 - 2773 2015.9
Statistical singing voice conversion based on direct waveform modification with global variance Reviewed
K. Kobayashi, T. Toda, G. Neubig, S. Sakti, S. Nakamura
Proc. INTERSPEECH page: 2754 - 2758 2015.9
A latent variable model for joint pause prediction and dependency parsing Reviewed
T.T. Nguyen, G. Neubig, H. Shindo, S. Sakti, T. Toda, S. Nakamura
Proc. INTERSPEECH page: 2719 - 2723 2015.9
Speed or accuracy? a study in evaluation of simultaneous speech translation Reviewed
T. Mieno, G. Neubig, S. Sakti, T. Toda, S. Nakamura
Proc. INTERSPEECH page: 2267 - 2271 2015.9
Modulation spectrum-constrained trajectory training algorithm for HMM-based speech synthesis Reviewed International coauthorship
S. Takamichi, T. Toda, A.W. Black, S. Nakamura
Proc. INTERSPEECH page: 1206 - 1210 2015.9
Non-native speech synthesis preserving speaker individuality based on partial correction of prosodic and phonetic characteristics Reviewed
Y. Oshima, S. Takamichi, T. Toda, G. Neubig, S. Sakti, S. Nakamura
Proc. INTERSPEECH page: 299 - 303 2015.9
The NAIST text-to-speech system for the Blizzard Challenge 2015 Reviewed
S. Takamichi, K. Kobayashi, K. Tanaka, T. Toda, S. Nakamura
Proc. Blizzard Challenge Workshop page: 1 - 4 2015.9
Prosody-controllable HMM-based speech synthesis using speech input Reviewed
Y. Nishigaki, S. Takamichi, T. Toda, G. Neubig, S. Sakti, S. Nakamura
Proc. MLSLP page: 1 - 5 2015.9
機械学習と音声生成:統計的手法に基づく音声信号モデリング
戸田 智基( Role: Contributor)
計測自動制御学会(編)機械学習の可能性, コロナ社 2022.12
音声(上)
滝口 哲也, 有木 康雄, 鏑木 時彦, 戸田 智基, 南角 吉彦, 藤本 雅清, 木下 慶介( Role: Contributor)
日本音響学会(編)音響学講座 6, コロナ社 2021.8
音声言語の自動翻訳 -コンピュータによる自動翻訳を目指して-
中村 哲, Sakriani Sakti, Graham Neubig, 戸田 智基, 高道 慎之介( Role: Contributor)
日本音響学会(編), コロナ社 2018.6
人工知能学大辞典・声質変換
戸田 智基( Role: Contributor)
共立出版 2017.7
音響キーワードブック・声質変換
戸田 智基( Role: Contributor)
コロナ社 2016.3
シンギュラリティ 限界突破を目指した最先端研究・声とその表情を生み出すコンピュータ
戸田 智基( Role: Contributor)
近代科学者 2016.2
歌声合成を用いた斉唱の自然性に関する要因調査
西澤 佳飛, 山本 龍一, Wen-Chin Huang, 戸田 智基
日本音響学会研究発表会
動画内区間検索及びハイライト検出における音響特徴量活用の有効性
今村 剛大, 西村 太一, 小松 達也, 戸田 智基
日本音響学会研究発表会
系列変換型声質変換におけるアライメント方式の比較
山下 陽生, 岡本 拓磨, 高島 遼一, 大谷 大和, 滝口 哲也, 戸田 智基, 河井 恒
日本音響学会研究発表会
大局的構造生成のための小節特徴量系列モデリングに基づく階層的自動作曲
澤田 桂都, Wen-Chin Huang, 戸田 智基
情報処理学会 音楽情報科学研究発表会
聴取実験に基づく深層音声電子透かし最適化基準の設計
尹 道鉉, 安田 裕介, 戸田 智基
日本音響学会研究発表会
倍音の振幅操作に基づく母音の無限音階化の検討
橋本 圭織,河村 隆生, 小野 順貴, 西澤 佳飛, 戸田 智基
日本音響学会研究発表会
VAE-SiFiGAN: 変分自己符号化表現に基づくSiFiGAN
荻田 健一, 米山 怜於, Wen-Chin Huang, 戸田 智基
日本音響学会研究発表会
テキスト・発話スタイル同時制御を可能とする非流暢性に着目した講演音声合成
吉岡 大貴, 中田 優翔, 安田 裕介, 戸田 智基
日本音響学会研究発表会
小節特徴量を活用した楽曲の大局的構造を反映した自動作曲
澤田 桂都, Wen-Chin Huang, 戸田 智基
日本音響学会研究発表会
MOS-Bench: 音声品質評価モデルの汎化能力に着目したベンチマーク
Wen-Chin Huang, Erica Cooper, 戸田 智基
日本音響学会研究発表会
Wavehax:調波信号モデルと2次元畳み込みを用いた複素スペクトログラム推定に基づくエイリアシングフリーニューラルボコーダ
米山 怜於, 宮下 敦志, 山本 龍一, 戸田 智基
日本音響学会研究発表会
BERTを用いたアクセントラベル不要な日本語ニューラルTTS
小椋 忠志, 岡本 拓磨, 大谷 大和, Erica Cooper, 戸田 智基, 河井 恒
日本音響学会研究発表会
個別楽器音に基づく知覚的楽曲間類似度表現学習
今村 剛大, 橋爪 優果, ホワン ウェンチン, 戸田 智基
情報処理学会 音楽情報科学研究発表会
音メディア情報処理に関する研究 Invited
戸田 智基
名古屋大学-NTT技術交流会
Panel Discussion on SVDD, Challenge Session on Singing Voice Deepfake Detection (SVDD) International conference
Z. Duan, T. Toda, Q. Zhang, T. Liu, Y. Wang, X. Zhang, C. Zeng
IEEE SLT
音声変換の基礎と研究動向 Invited
戸田 智基
名古屋工業大学国際音声言語生成技術研究所特別講演会
話し言葉音声合成のためのテキスト発話スタイル変換の改良
中田 優翔, 吉岡 大貴, ホワン ウェンチン, 戸田 智基
情報処理学会 音声言語情報処理研究会
Augmented speech production and hearing systems International conference
T. Toda, N. Ono, H. Kameoka
音素埋め込みスキップ接続を用いた継続長拡張に頑健な音声合成
小椋 忠志, 岡本 拓磨, 大谷 大和, 戸田 智基, 河井 恒
日本音響学会研究発表会
物理的制約を超えた発声・聴覚機能の獲得
戸田 智基, 小野 順貴, 亀岡 弘和
JST CREST「人間と情報環境の共生インタラクション基盤技術の創出と展開」領域, 2024年度終了課題成果発表シンポジウム
音メディアコミュニケーションにおける共創型機能拡張技術の創出
戸田 智基
JST CREST「人間と情報環境の共生インタラクション基盤技術の創出と展開」領域, 2024年度終了課題成果発表シンポジウム
各楽器パートに焦点を当てた知覚的楽曲間類似度の調査
橋爪 優果, 戸田 智基
日本音響学会研究発表会
ワーピングを用いた電気式人工喉頭音声変換システムに適した発話例生成
宮下 敦志, 戸田 智基
日本音響学会研究発表会
模擬電気喉頭音声コーパス
小林 和弘, 荻田 健一, 丹羽 希碩, Lester Violeta,Wen-Chin Huang, 戸田 智基
日本音響学会研究発表会
FIR型深層波形生成モデルを用いたF0制御可能なEnd-to-End音声合成の検討
大谷 大和, 岡本 拓磨, 戸田 智基, 河井 恒
日本音響学会研究発表会
合成音声の大規模主観比較評価からの絶対品質推定
安田 裕介, 戸田 智基
日本音響学会研究発表会
系列変換型声質変換モデルにおける単調アライメント探索の改良
山下 陽生, 岡本 拓磨, 高島 遼一, 大谷 大和, 滝口 哲也, 戸田 智基, 河井 恒
日本音響学会研究発表会
話者匿名化したデータを用いる多話者テキスト音声合成
Wen-Chin Huang, Yi-Chiao Wu, 戸田 智基
日本音響学会研究発表会
Voice conversion techniques to separately control static and dynamic speech characteristics Invited International conference
T. Toda
Frontier Forum on Intelligent Speech Analysis and Generation
個別楽器音に基づく楽曲間類似度表現学習における音源分離の活用法
今村 剛大, 橋爪 優果, 戸田 智基
情報処理学会 音楽情報科学研究発表会
音メディア情報処理に関する研究事例
戸田 智基
名古屋大学情報基盤センターコロキウム
多視点楽曲検索に向けた楽曲分離表現学習
橋爪 優果, 宮下 敦志, 李 莉, 戸田 智基
人工知能学会全国大会
Challenges in leveraging large models for augmented speech production Invited International conference
T. Toda
TCSDAP, RASDAP 2024
High-fidelity and pitch-controllable neural vocoder based on unified source-filter networks International coauthorship International conference
R. Yoneyama, Y.-C. Wu, T. Toda
広帯域英語コーパス帯域拡張モデルによるCSJコーパスを用いた日本語複数話者テキスト音声合成の高品質化
日田 光紀, 岡本 拓磨, 西村 竜一, 大谷 大和, 戸田 智基, 河井 恒
日本音響学会研究発表会
正弦波入力型ニューラルボコーダを用いたTTSモデルによる歌声合成
清水 聡太, 岡本 拓磨, 高島 遼一, 大谷 大和, 滝口 哲也, 戸田 智基, 河井 恒
日本音響学会研究発表会
AAS-VC:非自己回帰型系列音声変換における時間対応付け学習の頑健性
HUANG Wen-Chin, 小林 和弘, 戸田 智基
日本音響学会研究発表会
Eden-VC:音素継続長とアライメントの協調学習を用いた系列長変換型声質変換モデル
山下 陽生, 岡本 拓磨, 高島 遼一, 大谷 大和, 滝口 哲也, 戸田 智基, 河井 恒
日本音響学会研究発表会
トランペット演奏を対象としたオンセット検出に基づくテンポ変化推定
岡森 一樹, 武田 一哉, 戸田 智基
日本音響学会研究発表会
F0制御可能な有限インパルス応答に基づく高速ニューラルボコーダ
大谷 大和, 岡本 拓磨, 戸田 智基, 河井 恒
日本音響学会研究発表会
テキストスタイル変換を用いた話し言葉音声合成
吉岡 大貴,安田 裕介,戸田 智基
日本音響学会研究発表会
生成的異常音検知における識別的近傍平滑化
藤村 拓弥, 戸田 智基
日本音響学会研究発表会
深層情報埋め込み・検出に基づくプロアクティブ型ディープフェイク音声検知
尹 道鉉, 戸田 智基
日本音響学会研究発表会
ConvNeXt型超高速End-to-end音声合成・声質変換モデル
岡本 拓磨, 大谷 大和, 戸田 智基, 河井 恒
日本音響学会研究発表会
リアルタイム音声変換における聴覚フィードバックの影響に関する調査
丹羽 希碩, 小林 和弘, 戸田 智基
日本音響学会研究発表会
クラウドソーシングを用いた大規模比較評価のための評価ペアの組み合わせと評価数のオンライン最適化
安田 裕介,戸田 智基
日本音響学会研究発表会
音声生成に関する情報処理技術の研究事例
戸田 智基
第76回人工知能セミナー「音声AIを支える基盤技術の最前線」, 人工知能研究センター
Enhancing recognition of rare words in ASR through error detection and context-aware error correction
J. He, Z. Yang, T. Toda
電子情報通信学会音声研究会
Electrolaryngeal speech enhancement through strong linguistic encoding methods
L.P. Violeta, W.-C. Huang, D. Ma, R. Yamamoto, K. Kobayashi, T. Toda
電子情報通信学会音声研究会
Sequence-to-sequence voice conversion for electrolaryngeal speech enhancement with multi-stage pretraining and fine-tuning techniques
D. Ma, L.P. Violeta, K. Kobayashi, T. Toda
電子情報通信学会音声研究会
End-to-End系列変換型声質変換への高速ニューラル波形生成モデル導入の検討," 音講論, 2-Q-47, pp. 1295-1298, Sep. 2023.
山下 陽生, 岡本 拓磨, 高島 遼一, 大谷 大和, 滝口 哲也, 戸田 智基, 河井 恒
日本音響学会研究発表会
注意機構付きVAEを用いたテキスト発話スタイル変換における少量パラレルデータの活用
吉岡 大貴, 安田 裕介, 戸田 智基
日本音響学会研究発表会
F0予測・波形生成ネットワークの一貫学習によるメルスペクトログラム入力型F0制御可能ニューラルボコーダ
清水 聡太, 岡本 拓磨, 高島 遼一, 大谷 大和, 滝口 哲也, 戸田 智基, 河井 恒
日本音響学会研究発表会
NNSVS: ニューラルネットワークに基づく歌声合成のためのオープンソースソフトウェア
山本 龍一, 米山 怜於, 戸田 智基
日本音響学会研究発表会
複数話者テキスト音声合成における話者ベクトルの安定化に関する検討
日田 光紀, 岡本 拓磨, 西村 竜一, 大谷 大和, 戸田 智基, 河井 恒
日本音響学会研究発表会
音メディアコミュニケーションにおける共創型機能拡張技術の創出 Invited
戸田 智基
JST CREST「人間と情報環境の共生インタラクション基盤技術の創出と展開」領域, 中間報告シンポジウム-共生インタラクション研究が創る新しい未来社会デザイン-
パラ言語音声翻訳のための音声合成技術 ~ノンパラレル音声言語表情変換~ ~多様な音調とスタイルを持つ言語・非言語音声合成~ Invited
戸田 智基, 高道 慎之介
多元自動通訳研究シンポジウム2023
個別楽器音に基づいた楽曲間類似度のための分離表現学習
橋爪 優果, 李 莉, 宮下 敦志, 戸田 智基
情報処理学会 音楽情報科学研究発表会
A comparative study of self-supervised speech representation based voice conversion International coauthorship International conference
W.-C. Huang, S.-W. Yang, T. Hayashi, T. Toda
Investigation of Japanese PnG BERT Language Model in Text-to-Speech Synthesis for Pitch Accent Language International conference
Y. Yasuda, T. Toda
音声情報処理の最先端から見える未来 Invited
戸田 智基
第64回日本神経学会学術大会 シンポジウム「脳神経内科領域でのAIの未来:基礎研究から臨床応用まで」
x-vectorと音声認識コーパスを用いた多様な発話スタイルに対応する複数話者テキスト音声合成の評価
日田 光紀, 岡本 拓磨, 西村 竜一, 大谷 大和, 戸田 智基,河井 恒
電子情報通信学会音声研究会
全結合層型アップサンプリングを導入した高速ニューラル波形生成モデル
山下 陽生, 岡本 拓磨, 高島 遼一, 大谷 大和, 滝口 哲也, 戸田 智基,河井 恒
電子情報通信学会音声研究会
MS-Harmonic-Net++ vs SiFi-GAN: 基本周波数制御可能な高速ニューラル波形生成モデルの比較
清水 聡太, 岡本 拓磨, 高島 遼一, 大谷 大和, 滝口 哲也, 戸田 智基,河井 恒
電子情報通信学会音声研究会
トークン表現を用いたギター自動採譜における系列変換ネットワークの学習法
金 世訓, 武田 一哉, 戸田 智基
情報処理学会 音楽情報科学研究発表会
DNN音声強調におけるNoisy-target Trainingの分析と実応用に向けた調査
藤村 拓弥, 戸田 智基
電子情報通信学会応用音響研究会
サイクル学習を用いた注意機構付きVAEによるテキスト発話スタイル変換
吉岡 大貴, 安田 裕介, 松永 悟行, 大谷 大和, 戸田 智基
日本音響学会研究発表会
合成音声の主観評価結果の統計的解析
安田 裕介, 戸田 智基
日本音響学会研究発表会
SiFi-GAN:音源フィルタ構造に基づくHiFi-GAN
米山 怜於, Y.-C. Wu, 戸田 智基
日本音響学会研究発表会
Harmonic-Net++: 基本周波数制御可能なメルスペクトログラム入力型高速ニューラルボコーダ
清水 聡太, 岡本 拓磨, 高島 遼一, 滝口 哲也, 戸田 智基, 河井 恒
日本音響学会研究発表会
End-to-End系列変換型声質変換の高速化およびノンネイティブ話者変換の検討
山下 陽生, 岡本 拓磨, 高島 遼一, 滝口 哲也, 戸田 智基, 河井 恒
日本音響学会研究発表会
E2E-S2S-VC:End-to-end系列変換型声質変換
岡本 拓磨, 戸田 智基, 河井 恒
日本音響学会研究発表会
音声認識用コーパスを用いた複数話者テキスト音声合成における高品質化の検討
日田 光紀, 岡本 拓磨, 西村 竜一, 戸田 智基, 河井 恒
日本音響学会研究発表会
大規模雑音混入音声データを利用したDNN音声強調学習の効果
藤村 拓弥, 戸田 智基
日本音響学会研究発表会
基本周波数制御可能な高速ニューラル波形生成モデルの比較
清水 聡太, 岡本 拓磨, 高島 遼一, 滝口 哲也, 戸田 智基, 河井 恒
電子情報通信学会音声研究会
リー群論に基づく一般化ワーピング
宮下 敦志, 戸田 智基
電子情報通信学会音声研究会
MS-FC-HiFi-GAN:学習可能な軽量アップサンプリングを用いた高速ニューラル波形生成モデル
山下 陽生, 岡本 拓磨, 高島 遼一, 滝口 哲也, 戸田 智基, 河井 恒
電子情報通信学会音声研究会
名古屋大学における学生の利便性向上を目指したLMS連携システムの開発
澤田 桂都, 山本 実央, 木迫 璃玖, 大平 茂輝, 後藤 明史, 戸田 智基
大学ICT推進協議会 2022年度年次大会
内容語保存機構を備えた変分自己符号化器に基づくテキスト発話スタイル変換
吉岡 大貴, 安田 裕介, 松永 悟行, 大谷 大和, 戸田 智基
情報処理学会 音声言語情報処理研究会
異常音検知に対する深層学習適用事例
戸田 智基
第144回ロボット工学セミナー「ロボットのための音声・音響処理技術」, 日本ロボット学会
注意機構付きVAEを用いたテキスト発話スタイル変換の改良
吉岡 大貴, 安田 裕介, 松永 悟行, 大谷 大和, 戸田 智基
日本音響学会研究発表会
深層生成モデルに基づく音声合成技術
戸田 智基
第21回情報科学技術フォーラム(FIT2022)
Direction-aware target speaker extraction with conditional variational autoencoders and its sensitivity to direction-of-arrival error
R. Wang, L. Li, T. Toda
DNN音声強調におけるNoisy-target Trainingの挙動分析
藤村 拓弥, 戸田 智基
日本音響学会研究発表会
FC-HiFi-GAN:全結合層型アップサンプリングを導入した高速HiFi-GAN
山下 陽生, 岡本 拓磨, 高島 遼一, 滝口 哲也, 戸田 智基, 河井 恒
日本音響学会研究発表会
Sequence-wise parameter extraction of quasi-harmonic model for speech waveform generation
S. Chen, T. Toda
Harmonic-Net+:高調波入力とLayerwise-Quasi-Periodic畳み込みを用いた基本周波数制御可能な高速ニューラルボコーダ
松原 圭亮, 岡本 拓磨, 高島 遼一, 滝口 哲也, 戸田 智基, 河井 恒
日本音響学会研究発表会
基本周波数制御可能なメルスペクトログラム入力型HiFi-GANの初期検討
清水 聡太, 岡本 拓磨, 高島 遼一, 滝口 哲也, 戸田 智基, 河井 恒
日本音響学会研究発表会
Three-stage voice conversion framework for noisy and reverberant speech
Y. Choi, C. Xie, T. Toda
Sequence-to-sequence voice conversion training using synthetic parallel data for electrolaryngeal speech enhancement
D. Ma, L.P. Violeta, K. Kobayashi, T. Toda
音声認識コーパスを用いた高品質複数話者テキスト音声合成に向けたニューラルボコーダによる帯域拡張
日田 光紀, 岡本 拓磨, 西村 竜一, 戸田 智基, 河井 恒
日本音響学会研究発表会
Interpretable emotional control for text-to-speech system toward development of sympathetic educational-support robots
J. Feng, T. Yoshikawa, T. Toda
A comparison of pretraining frameworks for improving pathological speech recognition
L.P. Violeta, W.-C. Huang, T. Toda
拡散確率モデルとアライメントモデルを用いた潜在特徴系列変換に基づくテキスト音声合成
安田 裕介, 戸田 智基
日本音響学会研究発表会
構音障害者のための高明瞭度音声合成におけるHiFi-GANを用いた品質改善
松原 圭亮, 高島 遼一, 岡本 拓磨, 滝口 哲也, 戸田 智基, 河井 恒
日本音響学会研究発表会
群論を用いた解析的声道長正規化処理と音声認識への応用
宮下 敦志, 戸田 智基
日本音響学会研究発表会
Robustness of noisy-to-noisy voice conversion against variations of noisy condition
C. Xie, T. Toda
各楽器音源に着目した楽曲間類似度学習の評価
橋爪 優果, 李 莉, 戸田 智基
日本音響学会研究発表会
Note-level automatic guitar transcription using attention mechanism and multi-task learning
S. Kim, T. Hayashi, T. Toda
各楽器音に着目した楽曲間類似度学習
橋爪 優果, 李 莉, 戸田 智基
情報処理学会 音楽情報科学研究発表会
群論を用いた声道長変換の表現と解析的正規化処理
宮下 敦志, 戸田 智基
電子情報通信学会 音声研究会
二種の二値分類タスクに基づく外れ値検出を用いた直列型異常音検知法
畔栁 伊吹, 林 知樹, 武田 一哉, 戸田 智基
電子情報通信学会 応用音響研究会
Target speaker extraction based on conditional variational autoencoder and directional information in underdetermined condition
R. Wang, L. Li, T. Toda
The VoiceMOS Challenge 2022 International coauthorship
W.-C. Huang, E. Cooper, Y. Tsao, H.-M. Wang, T. Toda, J. Yamagishi
Disfluency Removal with Speech Inpainting on Spontaneous Lecture Speech
H. Geng, Y. Yasuda, T. Toda
環境音波形の教師なしモデリング及び環境音識別のためのデータ拡張への応用
犬塚 雅也, 林 知樹, 戸田 智基
日本音響学会研究発表会
注意機構付きVAEを用いた日本語テキストの発話スタイル変換
吉岡 大貴, 安田 裕介, 松永 悟行, 大谷 大和, 戸田 智基
日本音響学会研究発表会
各楽器音源に着目した距離学習に基づく楽曲間類似度計算
橋爪 優果, 李 莉, 戸田 智基
日本音響学会研究発表会
音素列制約つき音声認識モデルによる音声からのアクセントラベルの自動推定
吉本 暁文, 戸田 智基
日本音響学会研究発表会
書記素と音素を用いた事前学習モデルの日本語テキスト音声合成への適用
安田 裕介, 戸田 智基
日本音響学会研究発表会
最尤推定型継続長モデルを用いた話速変換ニューラルTTS
岡本 拓磨, 戸田 智基, 河井 恒
日本音響学会研究発表会
敵対的学習による統合的ソースフィルタネットワークの改良
米山 怜於, 呉 宜樵, 戸田 智基
日本音響学会研究発表会
Period-HiFi-GAN: 基本周波数を制御可能な高速ニューラルボコーダ
松原 圭亮, 岡本 拓磨, 高島 遼一, 滝口 哲也, 戸田 智基, 河井 恒
日本音響学会研究発表会
声質の可視化を用いた所望音声検索システムの提案
佐治 拓樹, 小林 和弘, 石黒 祥生, 戸田 智基, 大谷 健登, 西野 隆則, 武田 一哉
情報処理学会 音楽情報科学研究発表会
音を聴き分けて状況を判断する技術
戸田 智基
第2回名古屋大学イニシアティブウェビナー「視覚と聴覚の再構築」
DXがもたらす学び支援サービスと学び生活
戸田 智基
名古屋大学教育基盤連携本部高等教育システム開発部門シンポジウム
共創型音メディア機能拡張に向けた取り組み Invited
戸田 智基
電気・電子・情報関係学会 東海支部連合大会
言語表現の制御を可能とするTTS実現に向けたVAEによるテキスト発話スタイル変換
吉岡 大貴, 戸田 智基
日本音響学会研究発表会
敵対的学習による統合型ソースフィルタネットワーク
米山 怜於, Y.-C. Wu, 戸田 智基
日本音響学会研究発表会
HiFi-GANボコーダにおけるLPCNet特徴量の検討
松原 圭亮, 岡本 拓麿, 高島 遼一, 滝口 哲也, 戸田 智基, 河井 恒
日本音響学会研究発表会
距離学習を導入した二値分類モデルによる異常音検知
畔栁 伊吹, 林 知樹, 武田 一哉, 戸田 智基
日本音響学会研究発表会
発声機能拡張のためのインタラクティブ音声変換 Invited
戸田 智基
電気・電子・情報関係学会 東海支部連合大会
強制アライメント版Parallel Tacotron 2とHiFi-GANを用いたCPU型リアルタイム日本語ニューラルテキスト音声合成システムの実装
岡本 拓麿, 戸田 智基, 河井 恒
日本音響学会研究発表会
Interactive voice conversion for augmented speech production Invited International conference
T. Toda
5th International Workshop on Symbolic-Neural Learning (SNL-2021)
Practical use of LMS and related tools - case of Japanese university International conference
H. Hatakeyama, T. Toda, D. Ando, S. Kajita
Open Apereo
統合型ソースフィルタネットワークによるニューラルボコーダ
米山 怜於, Yi-Chiao Wu, 戸田 智基
電子情報通信学会音声研究会
名古屋大学における2020年度LMS利用ログ分析ならびに学習活動分析に向けた今後の展開
戸田 智基, 大平 茂輝, 後藤 明史
国立情報学研究所「大学の情報環境のあり方検討会」【第28回】大学等におけるオンライン教育とデジタル変革に関するサイバーシンポジウム「教育期間DXシンポ」
COVID-19とLMS - 大学教育の大幅な変化を経験して
森 健策, 戸田 智基
情報処理学会第38回全国大会 イベント企画「コロナ新時代の情報処理(教育)~口頭教育におけるニューノーマルの模索~」
電気式人工喉頭を用いた歌唱システムにおける自然な身体動作を利用した歌唱表現付与の提案
大川 舜平, 石黒 祥生, 大谷 健登, 西野 隆典, 小林 和弘, 戸田 智基, 武田 一哉
情報処理学会シンポジウム インタラクション2021
音高情報条件つき変分自己符号化器を用いたF0歌唱パターン生成
関 翔悟, 多賀 遥香, 武田 一哉, 戸田 智基
日本音響学会研究発表会
マルチタスク学習を用いたU-Netに基づく楽曲音源分離に関する調査
大竹 徹郎, 関 翔悟, 戸田 智基
日本音響学会研究発表会
テキスト音声合成のためのポストフィルタ用WaveNetボコーダの学習条件に関する評価
安原 和輝, Yi-Chiao Wu, Patrick Lumban Tobing, 松永 悟行, 大谷 大和, 戸田 智基
日本音響学会研究発表会
DiffWaveGrad: 拡散確率型ニューラルボコーダの併用モデル
岡本 拓麿, 戸田 智基, 志賀 芳則, 河井 恒
日本音響学会研究発表会
CycleVAEを用いた声質変換におけるWaveNetボコーダのファインチューニング法の調査
中谷 輝, Patrick Lumban Tobing, 武田 一哉, 戸田 智基
日本音響学会研究発表会
CycleVAE型声質変換を用いた構音障害者のための高明瞭度音声合成
松原 圭亮, 岡本 拓麿, 高島 遼一, 滝口 哲也, 戸田 智基, 志賀 芳則, 河井 恒
日本音響学会研究発表会
特徴量空間のクラス重心を考慮した二値分類モデルによる異常音検知
畔栁 伊吹, 林 知樹, 武田 一哉, 戸田 智基
電子情報通信学会応用音響研究会
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト Invited
戸田 智基
情報処理学会 音声言語情報処理研究会
Recent progress on voice conversion: what is next? Invited International conference
T. Tod
IEEE SLT
名古屋大学におけるオンライン授業支援サービスの運用
戸田 智基, 大平 茂輝, 後藤 明史, 田上 奈緒, 松岡 孝, 島田 啓史, 田島 尚徳, 中務 孝広, 出口 大輔, 森 健策
大学ICT推進協議会 2020年度年次大会
Open Apereo 2020 Online参加報告
畠山 久, 常盤 祐司, 戸田 智基, 梶田 将司
情報処理学会 教育学習支援情報システム研究会
CycleVAEとWaveNetボコーダを用いたクロスリンガル声質変換
中谷 輝, Patrick Lumban Tobing, 武田 一哉, 戸田 智基
日本音響学会研究発表会
FastSpeech型ニューラルTTSモデルの比較
岡本 拓磨, 戸田 智基, 志賀 芳則, 河井 恒
日本音響学会研究発表会
聴取者ごとの感情知覚モデルに基づく音声感情認識
安藤 厚志, 森 岳至, 小橋川 哲, 戸田 智基
日本音響学会研究発表会
微分可能全域通過フィルタを用いたダイナミックレンジ圧縮
彦坂 秀, 関 翔悟, 武田 一哉, 戸田 智基
日本音響学会研究発表会
Full-band LPCNet:48kHzリアルタイムニューラルボコーダ
松原 圭亮, 岡本 拓麿, 高島 遼一, 滝口 哲也, 戸田 智基, 志賀 芳則, 河井 恒
日本音響学会研究発表会
一般化指令応答モデルを用いた変分自己符号化器に基づく歌唱F0パターンの生成
多賀 遥香, 関 翔悟, 李 莉, 武田 一哉, 戸田 智基
日本音響学会研究発表会
Recent trend of voice conversion research and its possible future direction Invited International conference
T. Toda
ROCLING (32nd annual Conference on Computational Linguistics and Speech Processing)
オンデマンド型オンライン授業における学習活動分析に向けた授業支援システムログ活用の試み
戸田 智基, 大平 茂輝, 後藤 明史
国立情報学研究所「大学の情報環境のあり方検討会」【第17回】4月からの大学等遠隔授業に関する取組状況共有サイバーシンポジウム
名古屋大学におけるオンライン授業支援に関する事例紹介
戸田 智基
電気・電子・情報関係学会 東海支部連合大会
Sustainable Digital Learning Environment - Our Practices of Sakai International conference
H. Hatakeyama, T. Toda, Y. Tokiwa, S. Kajita
Open Apereo
名古屋大学教育学部附属学校におけるLMS導入取組~名大情報基盤センターとの連携
森 健策, 三小田 博昭, 渡辺 武志, 丹羽 ひとみ, 戸田 智基
国立情報学研究所「大学の情報環境のあり方検討会」【第4回】4月からの大学等遠隔授業に関する取組状況共有サイバーシンポジウム
名古屋大学における情報基盤を活用したCOVID-19対応 - オンライン学習の観点から
森 健策, 戸田 智基, 楫 勇一
国立情報学研究所「大学の情報環境のあり方検討会」4月からの大学等遠隔授業に関する取組状況共有サイバーシンポジウム
End-to-end音声合成の研究を加速させるオープンソースツールキットESPnet-TTS Invited International coauthorship
林 知樹, 山本 龍一, 井上 勝喜, 吉村 建慶, 武田 一哉, 戸田 智基, 渡部 晋治
日本音響学会研究発表会 スペシャルセッション「end-to-end音声合成とその周辺」
テキスト音声合成におけるポストフィルタとしてのWaveNetボコーダ学習法
安原 和輝, Yi-Chiao Wu, Patrick Lumban Tobing, 松永 悟行, 大谷 大和, 戸田 智基
日本音響学会研究発表会
リアルタイムニューラルボコーダにおける学習データ量の影響の調査
松原 圭亮, 岡本 拓磨, 高島 遼一, 滝口 哲也, 戸田 智基, 志賀 芳則, 河井 恒
日本音響学会研究発表会
発話感情認識における音韻・話者情報の低減
岡田 慎太郎, 安藤 厚志, 戸田 智基
日本音響学会研究発表会
Self-attentionを用いた弱教師あり音響イベント検出 International coauthorship
宮崎 晃一, 小松 達也, 林 知樹, 渡部 晋治, 戸田 智基, 武田 一哉
日本音響学会研究発表会
変分自己符号化器を用いた空気・体内伝導音の結合音源モデリングに基づく半教師あり自己発声音強調・抑圧
関 翔悟, 高田 萌絵, 武田 一哉, 戸田 智基
電子情報通信学会音声研究会
CycleVAEを用いたクロスリンガル声質変換
中谷 輝, P.L. Tobing, 武田 一哉, 戸田 智基
電子情報通信学会音声研究会
複数話者WaveNetボコーダを用いたニューラル話速変換の試み
岡本拓磨, 松原 圭亮, 戸田 智基, 志賀 芳則, 河井 恒
電子情報通信学会音声研究会
フルコンテキストラベル入力型リアルタイムニューラルテキスト音声合成の比較
岡本 拓磨, 松原 圭亮, 戸田 智基, 志賀 芳則, 河井 恒
日本音響学会研究発表会
音声変換技術と音声生成機能拡張への応用 Invited
戸田 智基
電子情報通信学会2020年総合大会 ソサイエティ合同企画「情報通信技術と人間相互理解の未来」
周りに内緒で通話できるか
戸田 智基
第6回 名古屋大学の卓越・先端・次世代シンポジウム「専門性と学際性の狭間で」
ユーザの適応能力を活用する共創型音声生成機能拡張技術の構築
戸田 智基
JSTさきがけ「新しい社会システムデザインに向けた情報基盤技術の創出」研究成果報告会
音声コミュニケーションにおける機能拡張
戸田 智基
名古屋大学 情報学シンポジウム2020「人工知能技術がもたらす価値創造と情報学の使命-音声言語コミュニケーション技術とポジティブ情報学の交差点から」
Speech waveform modeling for advanced voice conversion Invited International conference
T. Toda
発話感情認識における音素事後確率を利用した表現学習とデータ拡張の評価
岡田 慎太郎, 安藤 厚志, 戸田 智基
電子情報通信学会音声研究会
Creation of cooperative human augmentation techniques in sound media communication
T. Toda
Improving singing aid system for laryngectomees with statistical voice conversion and VAE-SPACE
L. Li, T. Toda, K. Morikawa, K. Kobayashi, S. Makino
声を変える技術の発展と社会に与える影響
戸田 智基
名古屋大学-NTT技術交流会
音声合成技術の進展 Invited
戸田 智基
第3回次期グローバルコミュニケーション計画検討WG
音声を変換する技術と機能拡張への応用 Invited
戸田 智基
豊田工業大学 研究談話会
Speech waveform modeling for advanced voice conversion International conference
T. Toda
パソコン必携化を活用した授業設計に向けて
戸田 智基
令和元年度第2回名古屋大学情報連携統括本部公開講演会・研究会
音声波形直接生成モデル「ニューラルボコーダ」の比較 Invited
岡本 拓磨, 戸田 智基, 志賀 芳則, 河井 恒
情報処理学会音声言語情報処理研究会
音声翻訳のための柔軟な音声合成の進展
戸田 智基, 高道 慎之介
次世代音声言語研究シンポジウム2019
Statistical voice conversion with direct waveform modeling International conference
T. Toda, K. Kobayashi, T. Hayashi
An investigation of fundamental frequency pattern prediction in electrolaryngeal speech enhancement
M. Eshghi, K. Tanaka, K. Kobayashi, H. Kameoka, T. Toda
コンタクトセンタ顧客満足度推定におけるドメイン適応の検討
安藤 厚志, 増村 亮, 神山 歩相名, 小橋川 哲, 青野 裕司, 戸田 智基
日本音響学会研究発表会
WaveGlowボコーダを用いたリアルタイムニューラルテキスト音声合成
岡本 拓麿, 戸田 智基, 志賀 芳則, 河井 恒
日本音響学会研究発表会
End-to-End型テキスト音声合成におけるWaveNetボコーダの学習に関する調査
安原 和輝, 林 知樹, 戸田 智基
日本音響学会研究発表会
模擬難聴処理を活用した補聴器フィルタ設計
彦坂 秀, 小林 和弘, 林 知樹, 関 翔悟, 武田 一哉, 坂野 秀樹, 戸田 智基
日本音響学会研究発表会
空気/体内伝導音の対応関係を活用した自己発声音強調/抑圧法
高田 萌絵, 関 翔悟, P.L. Tobing, 戸田 智基
日本音響学会研究発表会
楽曲音源分離のための個別音源マスク推定ネットワークの統合法
大竹 徹郎, 関 翔悟, 戸田 智基
日本音響学会研究発表会
音声分析・合成
戸田 智基
音声認識・音声対話技術講習会
End-to-End型テキスト音声合成におけるWaveNetボコーダの学習についての調査
安原 和輝, 林 知樹, 戸田 智基
電子情報通信学会音声研究会
模擬難聴処理を活用した音声波形加工に基づく明瞭度改善
彦坂 秀, 小林 和弘, 林 知樹, 関 翔悟, 武田 一哉, 坂野 秀樹, 戸田 智基
電子情報通信学会音声研究会
Advanced voice conversion Invited International conference
T. Toda
Hands on voice conversion Invited International conference
T. Toda
空気・体内伝導音を対象とした音声・音環境情報処理
戸田 智基
2019年度 第1回 住友理工株式会社―名古屋大学 探索型共同研究 テーマ検討会
多チャンネル変分自己符号化器を用いた劣決定音源分離
関 翔悟, 亀岡 弘和, 李 莉, 戸田 智基, 武田 一哉
日本音響学会研究発表会
多チャンネル変分自己符号化器に基づく劣決定音源分離の評価
関 翔悟, 亀岡 弘和, 李 莉, 戸田 智基, 武田 一哉
電子情報通信学会音声研究会
波形加工に基づく統計的声質変換の外部雑音に対する頑健性
栗田 優佑, 小林 和弘, 武田 一哉, 戸田 智基
電子情報通信学会音声研究会
基本周波数とメルケプストラムを用いたリアルタイムニューラルボコーダの検討
岡本 拓磨, 戸田 智基, 志賀 芳則, 河井 恒
日本音響学会研究発表会
Voice conversion with cyclic recurrent neural network for WaveNet fine-tuning
P.L. Tobing, Y.-C. Wu, T. Hayashi, K. Kobayashi, T. Toda
Reducing mismatch of WaveNet vocoder for variational autoencoder based voice conversion International coauthorship
W.-C. Huang, Y.-C. Wu, H.-T. Hwang, P.L. Tobing, T. Hayashi, K. Kobayashi, T. Toda, Y. Tsao, H.-M. Wang
雑音環境下における統計的声質変換の頑健性に関する調査
栗田 優佑, 小林 和弘, 武田 一哉, 戸田 智基
日本音響学会研究発表会
音素事後確率を利用した表現学習に基づく発話感情認識
岡田 慎太郎, 安藤 厚志, 戸田 智基
日本音響学会研究発表会
Augmented vocal production towards new singing style development Invited International conference
T. Toda
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
山田 智也, 関 翔悟, 小林 和弘, 戸田 智基
信号処理シンポジウム,
手書きレポートとLMSの連携を実現する名大版紙レポシステムの全学運用
出口 大輔, 清谷 竣也, 大平 茂輝, 戸田 智基
大学ICT推進協議会 2018年度年次大会
Voice Conversion Challenge 2018 International coauthorship International conference
Z.-H. Ling, J. Yamagishi, J. Lorenzo-Trueba, T. Toda, D. Saito, F. Villavicencio, T. Kinnunen
音声変換による発声機能の拡張 Invited
戸田 智基
東京大学 ヒューマンオーグメンテーション学 第4回セミナー
深層ボトルネック特徴と深層正準相関分析を用いたマルチモーダル声質変換
田村 哲嗣, 堀尾 健斗, 遠藤 肇, 速水 悟, 戸田 智基
第5回サイレント音声認識ワークショップ
嚥下音を利用した嚥下障害診断のための咽頭残留推定法
内野 達貴, 橋詰 淳, 勝野 雅央, 戸田 智基
日本音響学会研究発表会
FFTNetボコーダの高品質化に関する検討
岡本 拓磨, 戸田 智基, 志賀 芳則, 河井 恒
日本音響学会研究発表会
Electrolaryngeal Speech Enhancement by Using Attached Microphones onto Electrolarynx
M. Eshghi, S. Seki, K. Kobayashi, T. Toda
End-to-End音声認識ためのMulti-Head Decoderネットワーク International coauthorship
林 知樹, 渡部 晋治, 戸田 智基, 武田 一哉
日本音響学会研究発表会
WaveNetに基づく振幅スペクトログラムからの波形生成
関 翔悟, 林 知樹, 武田 一哉, 戸田 智基
日本音響学会研究発表会
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
高田 萌絵, 関 翔悟, 戸田 智基
日本音響学会研究発表会
ウェアラブルな空気/体内伝導マイクロフォンを用いた自己発声音強調/抑圧法
高田 萌絵, 関 翔悟, 戸田 智基
電子情報通信学会応用音響研究会
End-to-Endアプローチに基づく音イベントの擬音語表現への記号化
宮崎 晃一, 林 知樹, 戸田 智基, 武田 一哉
電子情報通信学会音声研究会
嚥下障害診断における嚥下音からの咽頭残留判定
内野 達貴, 橋詰 淳, 勝野 雅央, 戸田 智基
電子情報通信学会音声研究会
音声分析・合成
戸田 智基
音声認識・音声対話技術講習会
発声者の協力的動作を活用した音声生成機能の拡張技術
戸田 智基
JSTフェア2018
Advanced voice conversion Invited International conference
T. Toda
Hands on voice conversion Invited International conference
T. Toda
深層ボトルネック特徴と深層正準相関分析を用いたマルチモーダル声質変換
田村 哲嗣, 堀尾 健斗, 遠藤 肇, 速水 悟, 戸田 智基
電子情報通信学会音声研究会
Collapsed speech segment detection and suppression for WaveNet vocoder Invited International conference
Y.-C. Wu, K. Kobayashi, T. Hayashi, P.L. Tobing, T. Toda
Development of NU voice conversion system 2018 Invited International conference
P.L. Tobing, Y.-C. Wu, T. Hayashi, K. Kobayashi, T. Toda
Development of NU voice conversion system for Voice Conversion Challenge 2018
P.L. Tobing, Y. Wu, T. Hayashi, K. Kobayashi, T. Toda
統計的手法に基づく楽曲中の歌声加工のための歌声分離法の検討
山田 智也, 関 翔悟, 小林 和弘, 戸田 智基
電子情報通信学会音声研究会
Development of NU non-parallel voice conversion system 2018
Y. Wu, P.L. Tobing, T. Hayashi, K. Kobayashi, T. Toda
Development of NU Voice Conversion System 2018
P.L. Tobing, Y. Wu, T. Hayashi, K. Kobayashi, T. Toda
A Hybrid approach to electrolaryngeal speech enhancement based on log-spectral differential conversion and noise suppression
M. Eshghi, K. Kobayashi, T. Toda
Electrolaryngeal speech enhancement based on vocoder-free statistical voice conversion and noise suppression
M. Eshghi, K. Kobayashi, T. Toda
統計的音声変換ソフトウェアsprocket
小林 和弘, 戸田 智基
日本音響学会研究発表会
サブバンドWaveNetボコーダによる全可聴帯域音声合成の検討
岡本 拓麿, 橘 健太郎, 戸田 智基, 志賀 芳則, 河井 恒
日本音響学会研究発表会
WaveNetボコーダにおける学習データ量の影響に関する調査
林 知樹, 小林 和弘, 玉森 聡, 武田 一哉, 戸田 智基
日本音響学会研究発表会
Development of NU non-parallel voice conversion system for Voice Conversion Challenge 2018
Y. Wu, P.L. Tobing, T. Hayashi, K. Kobayashi, T. Toda
Sneak Preview of the 2nd Voice Conversion Challenge 2018 International coauthorship
J. Yamagishi, J. Lorenzo-Trueba, T. Toda, D. Saito, F. Villavicencio, T. Kinnunen, Z. Ling
WaveNetが音声合成研究に与える影響 Invited
戸田 智基
電子情報通信学会音声研究会
WaveNetボコーダを用いた統計的音声変換法
小林 和弘, 林 知樹, 玉森 聡, 戸田 智基
電子情報通信学会音声研究会
複数話者WaveNetボコーダに関する調査
林 知樹, 小林 和弘, 玉森 聡, 武田 一哉, 戸田 智基
電子情報通信学会音声研究会
DNN適応に基づく非可聴つぶやき認識用話者・環境依存音響モデルの構築
野田 聖太, 林 知樹, 戸田 智基, 武田 一哉
電子情報通信学会音声研究会
名古屋大学におけるサーバ型紙レポート・LMS連携システムの開発
清谷 竣也, 伊藤 瑠哉, 岡本 康佑, 谷川 右京, 大平 茂輝, 出口 大輔, 戸田 智基
大学ICT推進協議会 2017年度年次大会
雑音環境下における音声了解度向上に向けた音声波形加工手法の評価
武山 知弘, 小林 和弘, 戸田 智基, 武田 一哉
電子情報通信学会音声研究会
実環境下サイレント音声通話に向けた統計的非可聴つぶやき強調のための外部雑音抑圧法
田尻 祐介, 亀岡 弘和, 戸田 智基
第4回サイレント音声認識ワークショップ
WaveNetボコーダ学習における複数話者音声データの利用に関する検討
林 知樹, 玉森 聡, 小林 和弘, 武田 一哉, 戸田 智基
日本音響学会研究発表会
サブバンド処理に基づくWaveNetの高速化
岡本 拓麿, 橘 健太郎, 戸田 智基, 志賀 芳則, 河井 恒
日本音響学会研究発表会
喉頭摘出者のための歌唱支援を目指した電気音声から歌声への変換法
森川 一穂, 戸田 智基
日本音響学会研究発表会
CTCに基づく音響イベントから擬音語表現への変換
宮崎 晃一, 林 知樹, 戸田 智基, 武田 一哉
日本音響学会研究発表会
非可聴つぶやき認識のための深層学習に基づく音響モデリング
野田 聖太, 林 知樹, 戸田 智基, 武田 一哉
平成29年度電気・電子・情報関係学会東海支部連合大会
大学教育とラーニングアナリティクス基盤
緒方 広明, 稲垣 知宏, 中野 裕司, 竹村 治雄, 柴山 悦哉, 島田 敬士, 戸田 智基, 三石 大, 梶田 将司, 重田 勝介
第16回情報科学技術フォーラム(FIT2017)
Recent topics in voice conversion: towards better waveform modification Invited International conference
T. Toda
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出 International coauthorship
林 知樹, 渡部 晋治, 戸田 智基, 堀 貴明, Jonathan Le Roux, 武田 一哉
電子情報通信学会応用音響研究会
ケプストラム距離正則化を用いた半教師ありステレオチャネル楽曲音源分離
関 翔悟, 戸田 智基, 武田 一哉
音学シンポジウム2017
歌声分離ならびに統計的歌声声質変換に基づく楽曲中の歌声加工
山田 智也, 関 翔悟, 小林 和弘, 戸田 智基
音学シンポジウム2017
喉頭摘出者のための歌唱支援を目指した統計的電気音声変換法
森川 一穂, 戸田 智基
音学シンポジウム2017
系列データモデリングの基礎と最近のトピックス Invited
戸田 智基, Graham Neubig
日本音響学会第155回技術講習会
音声の声質を変換する技術とその応用 Invited
戸田 智基
2017年度 人工知能学会全国大会 オーガナイズドセッション OS-9 質感と感性
音声変換技術の進展と課題 Invited
戸田 智基
日本音響学会東海支部総会・講演会
名古屋大学における紙レポート システムの試験導入と課題
戸田 智基, 田上 奈緒, 中務 孝広, 松岡 孝, 大平 茂輝, 後藤 明史, 出口 大輔
Ja Sakai カンファレンス 2017
音声生成過程を考慮したWaveNetに基づく音声波形合成法
玉森 聡, 林 知樹, 戸田 智基, 武田 一哉
電子情報通信学会音声研究会
Acoustic-to-articulatory inversion mapping with variational latent trajectory Gaussian mixture model
日本音響学会研究発表会
Combination of state clustering and adaptive training for modeling continuous word-level emphasis
日本音響学会研究発表会
非可聴つぶやき強調のためのセグメント特徴量正則化NTF
田尻 祐介, 亀岡 弘和, 戸田 智基
日本音響学会研究発表会
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
関 翔悟, 亀岡 弘和, 戸田 智基, 武田 一哉
日本音響学会研究発表会
統計的音声波形変換に基づく雑音環境下における音声了解度向上
武山 知弘, 小林 和弘, 田尻 祐介, 戸田 智基, 武田 一哉
日本音響学会研究発表会
差分スペクトル補正に基づく声質変換におけるF0変換法の調査
小林 和弘, 戸田 智基, 中村 哲
日本音響学会研究発表会
周期非周期分離に基づくV/UV判定フリーな統計的パラメトリック音声合成システム
橘 健太郎, 志賀 芳則, 戸田 智基, 河井 恒
日本音響学会研究発表会
電気音声強調のためのF0パターン生成過程確率モデルの指令列推定法
田中 宏, 亀岡 弘和, 戸田 智基, 中村 哲
日本音響学会研究発表会
イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出 International coauthorship
林 知樹,渡部 晋治,戸田 智基,堀 貴明,Jonathan Le Roux, 武田 一哉
日本音響学会研究発表会
音声信号の分析と加工 − 音声を自在に変換するには? Invited
戸田 智基
日本音響学会研究発表会 学術委員会スペシャルセッション 音響学の基礎3(音響信号処理)
Acoustic-to-articulatory inversion mapping with variational latent trajectory Gaussian mixture model
P.L. Tobing, H. Kameoka, T. Toda
時間領域信号推定に基づく音声スペクトログラムの欠損成分復元
関 翔悟, 亀岡 弘和, 戸田 智基, 武田 一哉
電子情報通信学会応用音響研究会
セグメント特徴量正則化NTFに基づく雑音環境下における非可聴つぶやき強調
田尻 祐介, 亀岡 弘和, 戸田 智基
電子情報通信学会音声研究会
非可聴つぶやき認識のための通常音声を活用したDNN音響モデル学習
野田 聖太, 林 知樹, 戸田 智基, 武田 一哉
日本音響学会研究発表会
音声器官動作操作機能を備えた統計的音声変換法の評価
伊佐 衣代, Patrick Lumban Tobing, 田中 宏, 戸田 智基, 中村 哲
日本音響学会研究発表会
DNN型パワースペクトル復元によるボコーダ音質改善
岡本 拓磨, 橘 健太郎, 戸田 智基, 志賀 芳則, 河井 恒
日本音響学会研究発表会
WaveNetにおける音声波形量子化法の評価
橘 健太郎, 戸田 智基, 志賀 芳則, 河井 恒
日本音響学会研究発表会
Convolutional bidirectional long short-term memory hidden Markov model hybrid system for polyphonic sound event detection International coauthorship International conference
T. Hayashi, S. Watanabe, T. Toda, T. Hori, J.L. Roux, K. Takeda
高等教育におけるデジタル教科書の利活用についてのアンケート調査
出口 大輔, 山里 敬也, 大平 茂輝, 戸田 智基, 中島 英博, 重田 勝介, 岡田 義広, 山地 一禎
大学ICT推進協議会 2016年度年次大会
クリッカーの実時間データに基づく講義スライド改善支援ツールの開発
大平 茂輝, 後藤 明史, 戸田 智基
大学ICT推進協議会 2016年度年次大会
教育情報メディア技術を活用した授業設計に関する予備的検討
戸田 智基
平成28年度第9回名古屋大学情報連携統括本部公開講演会・研究会
Stereo channel music signal separation based on nonnegative tensor factorization with cepstrum regularization International conference
S. Seki, K. Ohtani, T. Toda, K. Takeda
Evaluation of electrolarynx controlled by real-time statistical F0 prediction International conference
K. Tanaka, T. Toda, S. Nakamura
Low delay statistical singing voice conversion with direct waveform modification based on spectral differential considering global variance International conference
K. Kobayashi, T. Toda, S. Nakamura
Statistical voice conversion and its application to augmented speech production Invited
T. Toda
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調法
田尻 祐介, 亀岡 弘和, 戸田 智基
第3回サイレント音声認識ワークショップ
深層学習に基づく非可聴つぶやき認識用音響モデルの構築
野田 聖太, 林 知樹, 戸田 智基, 武田 一哉
第3回サイレント音声認識ワークショップ
日常生活行動認識のためのRecurrent Neural Network構造の調査
玉森 聡, 林 知樹, 戸田 智基, 武田 一哉
日本音響学会研究発表会
音楽制作におけるミキシングのモデル化に向けたフィルタ推定
三好 真人, 戸田 智基, 武田 一哉
日本音響学会研究発表会
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
関 翔悟, 大谷 健登, 戸田 智基, 武田 一哉
日本音響学会研究発表会
Deep Neural Networkに基づく日常生活行動認識における適応手法
林 知樹, 北岡 教英, 戸田 智基, 武田 一哉
電子情報通信学会音声研究会
Deep Recurrent Neural Networkに基づく日常生活行動認識
玉森 聡, 林 知樹, 戸田 智基, 武田 一哉
電子情報通信学会音声研究会
音情報処理における特徴表現 Invited
戸田 智基
MIRU2016 第19回画像の認識・理解シンポジウム 特別企画MIRU x KIKU(音学シンポジウム連携オーガナイズドセッション)
音声分析・合成
戸田 智基
音声認識・音声対話技術講習会
音情報処理における特徴表現 Invited
戸田 智基
音学シンポジウム2016(MIRU連携オーガナイズドセッション)
Semantic parsing of ambiguous input with multi synchronous grammars
P. Arthur, G. Neubig, S. Sakti, S. Nakamura, T. Toda
事象関連電位の空間的事前情報を利用したノイズ除去
真木 勇人, 戸田 智基, Sakriani Sakti, Graham Neubig, 中村 哲
日本音響学会研究発表会
空気/体内伝導信号の非負値テンソル分解に基づく体内伝導微弱音声に対する雑音抑圧法
田尻 祐介, 亀岡 弘和, 戸田 智基, 中村 哲
日本音響学会研究発表会
F0パターン生成過程を考慮したProduct-of-Expertsに基づく電気音声強調のための統計的F0予測法
田中 宏, 亀岡 弘和, 戸田 智基, 中村 哲
日本音響学会研究発表会
音声波形加工に基づく非母語音声の継続長補正による品質劣化の分析
倶羅 真也, 高道 慎之介, 戸田 智基, Graham Neubig, 中村 哲
日本音響学会研究発表会
歌声合成システムの音源データに対する声質評価値に基づく声質制御
山根 壮一, 小林 和弘, 戸田 智基, 中野 倫靖, 後藤 真孝, 中村 哲
日本音響学会研究発表会
統計的パラメトリック音声合成におけるモデル統合法
橘 健太郎, 戸田 智基, 志賀 芳則, 河井 恒
日本音響学会研究発表会
非負値テンソル因子分解を用いた劣決定ステレオチャネル音源分離
関 翔悟, 西野 隆典, 戸田 智基, 武田 一哉
日本音響学会研究発表会
系列内変動を考慮した差分スペクトル補正に基づく短遅延歌声声質変換
小林 和弘, 戸田 智基, 中村 哲
日本音響学会研究発表会
An investigation of acoustic-to-articulatory inversion mapping with latent trajectory Gaussian mixture model
P.L. Tobing, T. Toda, H. Kameoka, S. Nakamura
Word-level Emphasis Transfer in Speech-to-speech Translation
D.Q. Truong,S. Takamichi,S. Sakti,G. Neubig, T. Toda, S. Nakamura
Incongruity detection on ASR outputs based on EEG signals
S. Sakti, Y. Odagaki, T. Sasakura, G. Neubig, T. Toda, S. Nakamura
Automatic detection of memorable spoken quotes
F. Koto, S. Sakti, G. Neubig, T. Toda, M. Adriani, S. Nakamura
選択型傾聴システムのための音信号提示手法の検討
鈴木 友美, 西野 隆典, 石黒 祥生, 戸田 智基, 武田 一哉
電子情報通信学会応用音響研究会
An evaluation of acoustic-to-articulatory inversion mapping with latent trajectory Gaussian mixture model International conference
P.L. Tobing, T. Toda, H. Kameoka, S. Nakamura
差分スペクトル補正に基づく歌声声質変換のためのF0変換の評価
小林 和弘, 戸田 智基, 中村 哲
電子情報通信学会音声研究会
空気/体内伝導信号の非負値テンソル分解に基づく実環境下における非可聴つぶやき強調
田尻 祐介, 亀岡 弘和, 戸田 智基, 中村 哲
電子情報通信学会音声研究会
電気音声強調のための統計的F0予測におけるProduct-of-ExpertsによるF0パターン生成過程モデルの導入
田中 宏, 亀岡 弘和, 戸田 智基, 中村
電子情報通信学会音声研究会
A joint model for pause prediction and dependency parsing using latent variables
T.T. Nguyen, G. Neubig, H. Shindo, S. Sakti, T. Toda, S. Nakamura
名古屋大学におけるSakai上での全講義登録のための教務連携システム開発
田上 奈緒, 中務 孝広, 松岡 孝, 太田 芳博, 大平 茂輝, 後藤 明史, 出口 大輔, 戸田 智基, 森 健策
Ja Sakai カンファレンス 2016
音声波形加工に基づく非母語音声の継続等補正法の評価と分析
倶羅 真也, 高道 慎之介, 戸田 智基, Graham Neubig, Sakriani Sakti, 中村 哲
電子情報通信学会音声研究会
Augmented speech production based on real-time statistical voice conversion International conference
T. Toda
Talk, MARCS institute, Western Sydney University
Augmented speech production based on real-time statistical voice conversion International conference
T. Toda
Talk, UNITEC
外部雑音モニタリングに基づく体内伝導微弱音声に対する雑音抑圧法
田尻 祐介, 戸田 智基, 中村 哲
電子情報通信学会応用音響研究会
差分スペクトル補正による統計的歌声声質変換とパラメータ生成
小林 和弘, 戸田 智基, 中村 哲
電子情報通信学会音声研究会
EEGを用いた未知語知覚の検出
笹倉 隆史, Sakriani Sakti, 真木 勇人, Graham Neubig, 戸田 智基, 中村 哲
第2回サイレント音声認識ワークショップ
雑音環境下におけるサイレント音声通話の実現に向けた非可聴つぶやきに対する2チャネル雑音抑圧法
田尻 祐介, 戸田 智基, 中村 哲
第2回サイレント音声認識ワークショップ
音声生成機能拡張のための統計的音声変換技術の研究 ~物理的制約を超えた発声機能の獲得を目指して~ Invited
戸田 智基
奈良先端科学技術大学院大学創立記念学術講演会
An evaluation of articulatory controllable speech modification based on Gaussian mixture models with direct waveform modification
P.L. Tobing, K. Kobayashi, T. Toda, G. Neubig, S. Sakti, S. Nakamura
機械翻訳を用いた擬似コード生成による学習者支援
札場 寛之, 小田 悠介, Graham Neubig, 畑 秀明, Sakriani Sakti, 戸田 智基, 中村 哲
教育システム情報学会第40回全国大会
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
高道 慎之介, 戸田 智基, Graham Neubig, Sakriani Sakti, 中村 哲
日本音響学会研究発表会
外部雑音モニタリングを用いた非可聴つぶやきに対する雑音抑圧法
田尻 祐介, 戸田 智基, Graham Neubig, Sakriani Sakti, 中村 哲
日本音響学会研究発表会
HMM音声合成における音声分析合成器STRAIGHTとWORLDの比較
高道 慎之介, 戸田 智基, 森勢 将雅, 中村 哲
日本音響学会研究発表会
差分スペクトル補正による歌声声質変換のためのF0変換に関する検討
小林 和弘, 戸田 智基, Graham Neubig, Sakriani Sakti, 中村 哲
日本音響学会研究発表会
歌声合成による学習データ生成を利用した歌声の声質評価値推定法
山根 壮一, 小林 和弘, 戸田 智基, 中野 倫靖, 後藤 真孝, Graham Neubig, Sakriani Sakti, 中村 哲
日本音響学会研究発表会
統計的手法を用いた電気式人工喉頭制御における遅延時間と予測精度の調査
田中 宏, 戸田 智基, Graham Neubig, Sakriani Sakti, 中村 哲
日本音響学会研究発表会
Study on word-level emphasis across English and Japanese
D.Q. Truong, S. Takamichi, S. Sakti, G. Neubig, T. Toda, S. Nakamur
歌声合成システムの音源データ検索のための声質評価値推定
山根 壮一, 小林 和弘, 戸田 智基, 中野 倫靖, 後藤 真孝, Graham Neubig, Sakriani Sakti, 中村
情報処理学会音楽情報科学研究会
音識別の新規アルゴリズムおよび実用化に関する研究開発
2020.9 - 2021.3
国内共同研究
音響信号処理モデルの汎用化・適応化とアプリケーション構築容易化のための基盤技術の開発
2020.7
国立研究開発法人産業技術総合研究所 受託研究
戸田 智基
音声合成の品質・性能向上に関する研究
2020.4 - 2021.3
国内共同研究
音メディアコミュニケーションにおける共創型機能拡張技術の創出
2019.10
科学技術振興機構 戦略的創造研究推進事業チーム型研究(CREST)「人間と情報環境の共生インタラクション基盤技術の創出と展開」領域
戸田 智基
Grant type:Competitive
音識別の新規アルゴリズムおよび実用化に関する研究開発
2019.9 - 2020.3
国内共同研究
発声障碍者補助を視野に入れた音声変換・認識技術に関する研究
2019.4 - 2020.3
国内共同研究
音声合成の品質・性能向上に関する研究
2019.4 - 2020.3
国内共同研究
演奏情報自動抽出に向けた楽音分離技術に関する研究
2019.2 - 2020.1
国内共同研究
空気/体内伝導音信号の相補的活用に基づく音声強調法の研究
2018.8 - 2019.2
国内共同研究
発声障碍者補助を視野に入れた音声変換・認識技術に関する研究
2018.5 - 2019.3
国内共同研究
音識別の新規アルゴリズムおよび実用化に関する研究開発
2018.4 - 2019.3
国内共同研究
音声合成の品質・性能向上に関する研究
2018.4 - 2019.3
国内共同研究
音声変換技術の商用化検討について
2018.3 - 2018.5
国内共同研究
話者認識の新規アルゴリズムおよび実用化に関する研究開発
2017.10 - 2018.3
国内共同研究
発声障碍者補助を視野に入れた音声変換技術に関する研究
2017.9 - 2018.4
国内共同研究
幼児を対象とした音声認識技術に関する研究
2017.8 - 2018.3
国内共同研究
統計的音声生成過程モデリングに基づく音声強調技術に関する研究
2017.6 - 2018.2
国内共同研究
ユーザの適応能力を活用する共創型音声生成機能拡張技術の構築
2016.12 - 2020.3
科学技術振興機構 戦略的創造研究推進事業個人研究(さきがけ)「新しい社会システムデザインに向けた情報基盤技術の創出」領域
戸田 智基
Grant type:Competitive
話者認識の新規アルゴリズムおよび応用に関する研究
2016.8 - 2017.3
国内共同研究
統計的音声生成過程モデリングに基づく音声強調技術に関する研究
2016.8 - 2017.2
国内共同研究
話者識別のための音声特徴量抽出アルゴリズムの検討
2016.1 - 2016.7
企業からの受託研究
発声障害者補助のためのリアルタイム声質変換処理の実装
2011.12 - 2012.7
科学技術振興機構 研究成果最適展開支援プログラム(A-STEP) 探索タイプ
戸田 智基
Grant type:Competitive
CASSIS -- Computer-Assisted communication and Silent Speech InterfaceS --
2009.4 - 2011.3
Tomoki Toda
Grant type:Competitive
発声障害者補助のための統計的声質変換技術の研究開発
2008.4 - 2011.3
総務省 戦略的情報通信研究開発推進制度(SCOPE) 若手ICT研究者育成型研究開発
戸田 智基
Grant type:Competitive
固有声変換法に基づく声質変換ソフトウェアの開発
2006.5 - 2007.2
情報処理推進機構(IPA) 未踏ソフトウェア創造事業
戸田 智基
Grant type:Competitive
次世代音声翻訳の研究
Grant number:17H06101 2017.5
科学研究費補助金 基盤研究(S)
Authorship:Coinvestigator(s)
Grant amount:\13000000 ( Direct Cost: \10000000 、 Indirect Cost:\3000000 )
空気/体内伝導音信号の相補的活用に基づく音声/音環境情報処理基盤の構築
Grant number:17H01763 2017.4 - 2020.3
科学研究費補助金 基盤研究(B)
Authorship:Principal investigator
聴覚特性に基づく明瞭音声の客観指標と音声聴覚支援手法の開発
Grant number:16H01734 2016.4 - 2020.3
科学研究費補助金 基盤研究(A)
Authorship:Coinvestigator(s)
対話的可視化可聴化に基づく音声コミュニケーション研究支援環境
Grant number: 16K12464 2016.4 - 2018.3
科学研究費補助金 挑戦的萌芽研究
Authorship:Collaborating Investigator(s) (not designated on Grant-in-Aid)
雑音環境下で頑健に動作するサイレント音声通話技術の構築
Grant number: 15K12064 2015.4 - 2019.3
科学研究費補助金 挑戦的萌芽研究
Authorship:Principal investigator
聴覚情報の静的表現に基づく高度音声処理基盤の構築
Grant number: 15H02726 2015.4 - 2018.3
科学研究費補助金 基盤研究(B)
Authorship:Coinvestigator(s)
統計的手法と生成過程モデリング手法の融合に基づく音声生成機能拡張技術の構築
Grant number: 26280060 2014.4 - 2017.3
科学研究費補助金 基盤研究(B)
Authorship:Principal investigator
自閉症等コミュニケーション障害の多元測定と統計モデルによる測定・支援の研究
Grant number: 26540117 2014.4 - 2017.3
科学研究費補助金 挑戦的萌芽研究
Authorship:Coinvestigator(s)
超巨大データに基づくユニバーサル音声モデル構築のための技術的・社会的基盤の確立
Grant number: 25280061 2013.4 - 2016.3
科学研究費補助金 基盤研究(B)
Authorship:Coinvestigator(s)
外国語ニュース・講演の音声同時通訳方式に関する研究
Grant number: 24240032 2012.5 - 2017.3
科学研究費補助金 基盤研究(A)
Authorship:Coinvestigator(s)
聴覚の情報表現に基づく高度音声分析変換合成方式の研究
Grant number: 24300073 2012.4 - 2015.3
科学研究費補助金 基盤研究(B)
Authorship:Coinvestigator(s)
高次統計量追跡による自律カスタムメイド音コミュニケーション拡張システムの研究
Grant number: 23240023 2011.4 - 2016.3
科学研究費補助金 基盤研究(A)
Authorship:Coinvestigator(s)
バリアフリー音声コミュニケーションのための次世代ボイスチェンジャー技術の構築
Grant number: 22680016 2010.4 - 2014.3
科学研究費補助金 若手研究(A)
Authorship:Principal investigator
新しい音声メディアによるユニバーサルコミュニケーションの研究
Grant number: 19200009 2007.4 - 2011.3
科学研究費補助金 基盤研究(A)
Authorship:Coinvestigator(s)
聴覚・音声機能の支援・拡張技術に関する総合的研究
Grant number: 19200017 2007.4 - 2011.3
科学研究費補助金 基盤研究(A)
Authorship:Coinvestigator(s)
任意のユーザーを対象とする統計的声質変換・制御法の構築に関する研究
Grant number: 18680018 2006.4 - 2009.3
科学研究費補助金 若手研究(A)
Authorship:Principal investigator
多元観測信号を用いた音信号の予測及び復元に関する研究
Grant number: 18300064 2006.4 - 2009.3
科学研究費補助金 基盤研究(B)
Authorship:Coinvestigator(s)
ディジタルメディアコンテンツ制作のための多様な音声の合成技術
Grant number:17300063 2005.4 - 2009.3
科学研究費補助金 基盤研究(B)
Authorship:Coinvestigator(s)
音情景の分解・合成・拡張に基づく音響拡張現実感に関する研究
Grant number:15300035 2005.4 - 2007.3
科学研究費補助金 基盤研究(B)
Authorship:Coinvestigator(s)
環境、話者、タスクへの適応性をもつユーザにやさしい音声認識アルゴリズムの研究
Grant number: 15300060 2005.4 - 2007.3
科学研究費補助金 基盤研究(B)
Authorship:Coinvestigator(s)
多様な話者性の制御を可能とする高品質なテキスト音声合成の研究
Grant number: 03J01700 2003.4 - 2005.3
科学研究費補助金 特別研究員奨励費
Authorship:Principal investigator