研究

研究テーマ

私の研究目標は、音響情報（音響特徴量）から知識を抽出することです。具体的には、音声感情認識、異常音検出、音声分類などが挙げられます。さらに、振動信号への応用も行っています。研究のアプローチとして：(1) データ駆動型アプローチ（物理モデリングより）、(2) 実装可能性を重視（必ずしも人間のメカニズムに従わない）、(3) 頑健性（正確さより、乱れがあっても安定・一貫したモデルか）を重視しています。科学はエビデンスに基づき、実装可能で、一貫性があるべきと考えます。

研究コンセプト

提供中の研究テーマ

以下は過去に提供してきた研究テーマです：

CCCロスを用いた多層パーセプトロンによる音声感情認識（データセット：IEMOCAP）
Wav2Vec2/Hubert/WavLM/UniSpeech-SATによるインドネシア語音声認識
複数コーパス音声感情認識のための汎用音響特徴量の探求（30以上のデータセット）
Calfem-Pythonの開発
Vibration Toolboxの開発
FastSpeechによるインドネシア語感情音声合成
深層学習を用いた音声によるCOVID-19診断（データセット：ComParE CSS 2021）
音声処理技術による病的声障害の予測（データセット：SVD, Voiced, HUPA）
非音声音（笑い声、泣き声など）における感情強度の検出
機械学習によるどもり（吃音）の検出・予測
感情的動画に対するユーザー反応から7つの自己報告感情強度を予測
独自の発声バーストで認知される10次元の感情をキャプチャするFew-shot学習
発声バーストで認知される感情のマルチモーダル（音声＋映像＋テキスト）学習
マルチ出力回帰による感情の自己報告アノテーション予測

学部生レベルには、ベースライン手法を提供し、提案手法による改善を目指します。

標準的なタイムライン

学部生向けタイムライン

緑：最も集中して作業し、遊ぶフェーズ；青：さらに作業するフェーズ；黄：作業しつつ遊ぶフェーズ

タイムラインは1年単位；学部生（S1、最終学年）、修士（S2、2年間）、博士（S3、研究開始から3年間）に対応。

指導方針

修士生には特別な要件はありませんが、博士生は入学前に1本の論文発表が必要です（IEEE Xploreまたは同等レベル）。信号処理と機械学習の強固な知識を持つ学生を優遇します。NkululekoまたはSpeechainツールキットを使用した経験のある、研究に対して高い動機と情熱を持つ学生を好みます。修士生は私が提供する研究テーマで取り組み、博士生は独自のテーマを提案することが期待されます。定期的なミーティング（ゼミ、セミナー等）が研究の進捗・課題・次のステップを議論する鍵です。

連絡先

研究コラボレーションについては、英語ページもご参照ください。メールにてご連絡ください：bagustris[at]outlook.com