研究

今日の研究が明日の世界をつくる。
研究は違いを生み出す。

研究テーマ

私の研究目標は、音響情報(音響特徴量)から知識を抽出することです。このテーマの例として、音声感情認識、異常音検出、音声分類があります。さらに、この研究は振動信号にも拡張できます。これらの目標を達成するためのアプローチは、(1) 物理モデリングではなくデータ駆動型アプローチ、(2) 必ずしも人間のメカニズムに従うのではなく実用的な実装を重視すること、(3) 正しさそのものよりも、摂動があってもモデルがどれだけ安定・一貫しているかという頑健性を重視することです。私にとって科学は、エビデンスに基づき、実装可能で、一貫しているべきものです。私の研究はプロセス志向ではなく結果志向です。これは、プロセス(物理現象、モデリング、数学、アルゴリズム)が重要でないという意味ではありません。プロセスを十分に理解できれば、解決策は自然に見えてくることがあります。それでも、その研究を行う理由(根拠)は必要です。そのうえで、私は主に結果に基づいて研究を評価します。私の研究は Society 5.0 の課題解決に向けた技術開発に貢献します(Society 5.0 とは何か?インドネシア語の記事はこちら)。

研究コンセプト

提供してきた研究テーマ

以下は、これまでに提供してきた研究テーマです。

  1. CCC loss を用いた多層パーセプトロンによる音声感情認識(データセット:IEMOCAP)
  2. Wav2Vec2/Hubert/WavLM/UniSpeech-SAT などを用いたインドネシア語音声認識
  3. 複数コーパス音声感情認識のための汎用音響特徴量に向けた研究(30以上のデータセット)
  4. Calfem-Python の開発
  5. Vibration Toolbox の開発
  6. FastSpeech を用いたインドネシア語感情音声合成
  7. 深層学習を用いた発話音声による COVID-19 診断(データセット:ComParE CSS 2021)
  8. 音声処理技術による病的音声障害の予測(データセット:SVD、Voiced、HUPA)
  9. 非音声音(笑い声、泣き声など)における感情強度の検出
  10. 機械学習を用いた発話中の吃音(インドネシア語:gagap)の検出・予測
  11. 感情を喚起する動画へのユーザー生成反応から、自己報告による7つの感情(Adoration、Amusement、Anxiety、Disgust、Empathic Pain、Fear、Surprise)の強度を予測
  12. 個別の発声バーストにおいて確実に知覚される10次元の感情(Awe、Excitement、Amusement、Awkwardness、Fear、Horror、Distress、Triumph、Sadness、Surprise)を捉えるための音響データに対する few-shot learning
  13. 個別の発声バーストにおいて確実に知覚される10次元の感情(Awe、Excitement、Amusement、Awkwardness、Fear、Horror、Distress、Triumph、Sadness、Surprise)を捉えるためのマルチモーダル学習(音声+映像+テキスト)
  14. マルチ出力回帰を用いて、実環境の7種類の感情体験に対する細かな自己報告アノテーションを予測し、マルチモーダル表現から自己報告感情を推定

学部生レベルでは、私がベースライン手法を提供し、学生は提案手法によって結果の改善を目指します。

その他のトピック・テーマ

私の論文をご覧ください。通常、そのトピックで今後取り組むべき課題を future work として書いています。

修士レベルでは、自分の研究テーマを提案することもできます。詳細はメールでお問い合わせください。

標準的なタイムライン

学部生向けタイムライン 緑:最も集中して作業し、しっかり遊ぶフェーズ;
青:より集中して作業し、しっかり遊ぶフェーズ;
黄:作業しつつ、よりよく遊ぶフェーズ

タイムラインは1年単位です。学部生(S1、最終学年)、修士学生(S2、2年間)、博士学生(S3、開始時点から3年間の研究)に合わせて調整できます。

スタイルガイド

学部卒業研究プロジェクト向けのリポジトリ例は、このガイドで確認できます。

指導方針

修士学生に特別な要件はありません。ただし、博士学生については、入学前に少なくとも1本の論文発表が必要です。最低限 IEEE Xplore または同等の場所に掲載されていることを求めます。信号処理と機械学習の強いバックグラウンドがあることは、学生候補者にとってプラスです。研究への高い動機と情熱があり、以前に Nkululeko または Speechain のいずれかのツールキットを使用した経験のある学生を指導したいと考えています。修士学生は私が提示する研究テーマに取り組むことができますが、博士学生は独自にテーマを提案すべきです。研究テーマについては、新規性よりも実用性を重視します(ただし、研究としての貢献・新規性は必要です)。定期的なミーティング(ラボ勉強会、セミナー、個別ミーティング)は、進捗、課題、次のステップを議論するうえで重要です。学生には、関連文献を積極的に読み、実験を行い、結果を批判的に分析することを勧めます。研究は重要ですが、身体的にも精神的にも健康は優先事項です。最終的には、学生が研究能力を高め、自分の研究分野に意味のある貢献をできるよう支援することを目指しています。

助成研究プロジェクト

  1. SIMULASI DAN PREDIKSI KEBISINGAN KERETA BANDARA SOEKARNO-HATTA(Penelitian Dosen Pemula、Dana Lokal ITS 2017)
  2. DETEKSI COVID-19 LINTAS DATA BERDASARKAN SUARA BATUK DENGAN DEEP LEARNING(TM/DRPM-ITS/PN.01.003、Funded by ITS 2022)
  3. 音声の音源-調音分解を用いた自己教師あり表現学習(Kakenhi B、2024-2027)