研究

研究テーマ

私の研究目標は、音響情報(音響特徴量)から知識を抽出することです。具体的には、音声感情認識、異常音検出、音声分類などが挙げられます。さらに、振動信号への応用も行っています。研究のアプローチとして:(1) データ駆動型アプローチ(物理モデリングより)、(2) 実装可能性を重視(必ずしも人間のメカニズムに従わない)、(3) 頑健性(正確さより、乱れがあっても安定・一貫したモデルか)を重視しています。科学はエビデンスに基づき、実装可能で、一貫性があるべきと考えます。

研究コンセプト

提供中の研究テーマ

以下は過去に提供してきた研究テーマです:

  1. CCCロスを用いた多層パーセプトロンによる音声感情認識(データセット:IEMOCAP)
  2. Wav2Vec2/Hubert/WavLM/UniSpeech-SATによるインドネシア語音声認識
  3. 複数コーパス音声感情認識のための汎用音響特徴量の探求(30以上のデータセット)
  4. Calfem-Pythonの開発
  5. Vibration Toolboxの開発
  6. FastSpeechによるインドネシア語感情音声合成
  7. 深層学習を用いた音声によるCOVID-19診断(データセット:ComParE CSS 2021)
  8. 音声処理技術による病的声障害の予測(データセット:SVD, Voiced, HUPA)
  9. 非音声音(笑い声、泣き声など)における感情強度の検出
  10. 機械学習によるどもり(吃音)の検出・予測
  11. 感情的動画に対するユーザー反応から7つの自己報告感情強度を予測
  12. 独自の発声バーストで認知される10次元の感情をキャプチャするFew-shot学習
  13. 発声バーストで認知される感情のマルチモーダル(音声+映像+テキスト)学習
  14. マルチ出力回帰による感情の自己報告アノテーション予測

学部生レベルには、ベースライン手法を提供し、提案手法による改善を目指します。

標準的なタイムライン

学部生向けタイムライン

緑:最も集中して作業し、遊ぶフェーズ;青:さらに作業するフェーズ;黄:作業しつつ遊ぶフェーズ

タイムラインは1年単位;学部生(S1、最終学年)、修士(S2、2年間)、博士(S3、研究開始から3年間)に対応。

指導方針

修士生には特別な要件はありませんが、博士生は入学前に1本の論文発表が必要です(IEEE Xploreまたは同等レベル)。信号処理と機械学習の強固な知識を持つ学生を優遇します。NkululekoまたはSpeechainツールキットを使用した経験のある、研究に対して高い動機と情熱を持つ学生を好みます。修士生は私が提供する研究テーマで取り組み、博士生は独自のテーマを提案することが期待されます。定期的なミーティング(ゼミ、セミナー等)が研究の進捗・課題・次のステップを議論する鍵です。

連絡先

研究コラボレーションについては、英語ページもご参照ください。メールにてご連絡ください:bagustris[at]outlook.com