理工学部Faculty of Science and Engineering
COT300XE(計算基盤 / Computing technologies 300)マルチモーダル情報処理Multi-modal Information Processing
倉掛 正治Shoji KURAKAKE
授業コードなどClass code etc
学部・研究科Faculty/Graduate school | 理工学部Faculty of Science and Engineering |
添付ファイル名Attached documents | |
年度Year | 2022 |
授業コードClass code | H6107 |
旧授業コードPrevious Class code | |
旧科目名Previous Class title | |
開講時期Term | 秋学期授業/Fall |
曜日・時限Day/Period | 火4/Tue.4 |
科目種別Class Type | |
キャンパスCampus | 小金井 |
教室名称Classroom name | 各学部・研究科等の時間割等で確認 |
配当年次Grade | |
単位数Credit(s) | |
備考(履修条件等)Notes | |
他学部公開科目Open Program | |
他学部公開(履修条件等)Open Program (Notes) | |
グローバル・オープン科目Global Open Program | |
成績優秀者の他学部科目履修制度対象Interdepartmental class taking system for Academic Achievers | |
成績優秀者の他学部科目履修(履修条件等)Interdepartmental class taking system for Academic Achievers (Notes) | |
実務経験のある教員による授業科目Class taught by instructors with practical experience | |
SDGsCPSDGs CP | |
アーバンデザインCPUrban Design CP | |
ダイバーシティCPDiversity CP | |
未来教室CPLearning for the Future CP | |
カーボンニュートラルCPCarbon Neutral CP | |
千代田コンソ単位互換提供(他大学向け)Chiyoda Campus Consortium | |
カテゴリー<理工学部>Category |
応用情報工学科 学科専門科目 |
すべて開くShow all
すべて閉じるHide All
Outline (in English)
Multimodal information processing is about technologies for prediction and classification from different modal data, such as image and audio. In this class, students will learn single modal data processing technologies in the first half of the classes. For image processing, convolutional neural network is introduced. For speech recognition, hidden Markova model, RNN and LSTM are explained. In the second half of the classes, student will learn technologies to combine different single modal data processing results. Student will also have opportunities to try MATLAB code provided by the lecturer and deepen the level of understanding for technologies learned through the class.
[Learning activities outside of classroom]
The review and the preparation of each lesson will take 4 hours. How to use MATLAB should be learnt by students themselves by mainly using web and with the help form the staff at the software center for the setting related things.
[Grading Criteria /Policy]
Grade is determined 40% by the submission of the assignment for each lesson and 60% by the evaluation of the final report.
授業で使用する言語Default language used in class
日本語 / Japanese
授業の概要と目的(何を学ぶか)Outline and objectives
マルチモーダル情報処理とは、画像や音声などの複数のモーダルのデータをコンピュータで処理して予測や分類を行う技術のことである。本講義では,単一モーダルの処理としてディープニューラルネットワークを用いた画像分類と時系列処理を用いた音声認識を学び、次に複数のモーダル情報を統合する技術を学ぶ.さらに、MATLABを用いて講師が提供するコードを動作させて、学んだ技術の効果を確認して理解を深めていく。
到達目標Goal
・MATLABの基本的な使い方を習得する
・パターン認識の基本的概念を習得する.
・畳み込みニューラルネットワークの処理を理解する。
・音の物理的な実態を学び,音声などの時系列データ処理に適した隠れマルコフモデルの概要を理解する.
・複数モーダル情報の統合手法であるバギング,ブースティングの手順を習得する.
この授業を履修することで学部等のディプロマポリシーに示されたどの能力を習得することができるか(該当授業科目と学位授与方針に明示された学習成果との関連)Which item of the diploma policy will be obtained by taking this class?
ディプロマポリシーのうち、「DP1」と「DP2」と「DP4」に関連
授業で使用する言語Default language used in class
日本語 / Japanese
授業の進め方と方法Method(s)(学期の途中で変更になる場合には、別途提示します。 /If the Method(s) is changed, we will announce the details of any changes. )
○講義形式でスライドを用いて講義内容を説明する.
○MATLAB環境で,講師から提供されるコードを実行して、講義で取り上げる技術や手法の理解を深める。
○MATLAB環境に自ら撮影した画像/録音した音声を取り込み、提供されたコードで処理した結果と処理内容の説明とをレポートにまとめて提出する
○一部の講義はオンラインで実施予定。授業の方法や授業計画の変更、成績評価方法の変更などが必要になった場合は、学習支援システムでその都度提示する。担当教員から学習支援システムを通じた連絡がないか、日ごろからよく確認するようにしてください。
○講義資料の配布、プレゼン資料作成に必要な素材の提供は、「学習支援システム(Hoppii)」を通じて行う
○質問やコメントの受付、およびそれらへのフィードバックは「学習支援システム(Hoppii)」を通じて行う。必要に応じて、質問・コメントを授業内で紹介し、さらなる議論に活かします
アクティブラーニング(グループディスカッション、ディベート等)の実施Active learning in class (Group discussion, Debate.etc.)
なし / No
フィールドワーク(学外での実習等)の実施Fieldwork in class
なし / No
授業計画Schedule
授業形態/methods of teaching:対面/face to face
※各回の授業形態は予定です。教員の指示に従ってください。
1[対面/face to face]:マルチモーダル情報処理とは
・講義の進め方の説明
・MATLABの設定(確認)
2[オンライン/online]:統計的モデリング
・確率、尤度,最尤法など確率的な現象を取り扱う手法の基本的概念を復習
・MATLABで確率分布の統計的モデリングを実践
3[オンライン/online]:機械学習の概要
・活性化関数、プーリング、ソフトマックス関数、交差エントロピー等の機械学習の基本的概念を復習
4[対面/face to face]:畳み込みニューラルネットワーク(CNN)による画像分類
・畳み込み処理の復習
・CNNの構成
・MATLABでのCNNの動作確認
5[オンライン/online]:CNNにおける画像からの特徴抽出
・CNNの中間層の動作
6[オンライン/online]:CNNにおける学習アルゴリズム
・多層ネットワークにおける勾配法
7[対面/face to face]:CNNの学習環境・データの取り扱い
・CNN学習の際に必要な一連の手順
8[対面/face to face]:機械学習における最適化問題、過学習とは
・有限のサンプルデータで最適化を行うことで生じる誤差の性質、特に過学習
9[対面/face to face]:音の特性と時系列情報の表現
・音の物理的特性
・系列データの確率的モデリング方法である隠れマルコフモデル(HMM)の基本的概念
10[対面/face to face]:RNNによる系列データのモデル化
・DNNにおける系列データの表現
・RNNの学習方法
11[オンライン/online]:LSTMによる系列データのモデル化と実例
・LSTMやその他の系列データ表現方法とその学習方法
12[対面/face to face]:集合学習による情報統合/アダブースト手法の基礎
・集合学習,特にブースティング手法の概要
13[オンライン/online]:正則化処理
・過学習を抑制する正則化処理の概念
・集合学習とDropout処理の関連
14[対面/face to face]:振り返り
・授業内で用いたMATLABコードの総括的解説、受けた質問に対する回答の紹介
・レポート作成
授業時間外の学習(準備学習・復習・宿題等)Work to be done outside of class (preparation, etc.)
○本授業の準備・復習等の授業時間外学習は4時間を標準とする
○MATLABの使い方の基礎は講義で説明するが,自習して使いこなすことが必要。MATLABが動作しない,使い方が分からない,という場合はソフトウェアステーションなどで解決すること
テキスト(教科書)Textbooks
講義スライドは授業支援システムへ事前にアップする。
参考書References
特になし
成績評価の方法と基準Grading criteria
平常点:40%
・毎回の講義において、講義の感想を授業支援システムにアップすること。
・感想は1~2行でよい
レポート:60%
・レポートは、MATLAB環境に自ら撮影した画像/録音した音声を取り込み、提供されたコードで処理した結果と処理内容の説明を記述したものとする。
・処理内容の理解が正確であるか、対象とするデータに対して適切な手法を適切に使っているか、が評価基準
学生の意見等からの気づきChanges following student comments
知識の取得のみならず,考える力を身につけることに時間を割くようにする
学生が準備すべき機器他Equipment student needs to prepare
各自のノートPCを使用.MATLABを使えるようにインストールと必要な設定をすませておくこと