理工学部Faculty of Science and Engineering
COT300XE(計算基盤 / Computing technologies 300)マルチモーダル情報処理Multi-modal Information Processing
倉掛 正治Shoji KURAKAKE
授業コードなどClass code etc
学部・研究科Faculty/Graduate school | 理工学部Faculty of Science and Engineering |
添付ファイル名Attached documents | |
年度Year | 2023 |
授業コードClass code | H6107 |
旧授業コードPrevious Class code | |
旧科目名Previous Class title | |
開講時期Term | 秋学期授業/Fall |
曜日・時限Day/Period | 火4/Tue.4 |
科目種別Class Type | |
キャンパスCampus | 小金井 |
教室名称Classroom name | 小西館‐W305 |
配当年次Grade | 3年 |
単位数Credit(s) | |
備考(履修条件等)Notes | |
他学部公開科目Open Program | |
他学部公開(履修条件等)Open Program (Notes) | |
グローバル・オープン科目Global Open Program | |
成績優秀者の他学部科目履修制度対象Interdepartmental class taking system for Academic Achievers | |
成績優秀者の他学部科目履修(履修条件等)Interdepartmental class taking system for Academic Achievers (Notes) | |
実務経験のある教員による授業科目Class taught by instructors with practical experience | |
SDGsCPSDGs CP | |
アーバンデザインCPUrban Design CP | |
ダイバーシティCPDiversity CP | |
未来教室CPLearning for the Future CP | |
カーボンニュートラルCPCarbon Neutral CP | |
千代田コンソ単位互換提供(他大学向け)Chiyoda Campus Consortium | |
カテゴリー<理工学部>Category |
応用情報工学科 学科専門科目 |
すべて開くShow all
すべて閉じるHide All
Outline (in English)
Multimodal information processing is about technologies for prediction and classification from different modal data, such as image and audio. Students will learn single and multi modal data processing technologies in the first half of this course. For image processing, convolutional neural network is introduced. For speech recognition, hidden Markova model, RNN and LSTM are explained. In the second half of this course, student will learn the applications of those technologies including object detection, image generation.
Student will also have opportunities to try MATLAB code provided by the lecturer and deepen the level of understanding for technologies learned through the course.
[Learning activities outside of classroom]
The review and the preparation of each lesson will take 4 hours. How to use MATLAB should be learnt by students themselves by mainly using web and with the help form the staff at the software center for the setting related things.
[Grading Criteria /Policy]
Grade is determined 60% by the submission of the assignment for each lesson and 40% by the evaluation of reports.
授業で使用する言語Default language used in class
日本語 / Japanese
授業の概要と目的(何を学ぶか)Outline and objectives
マルチモーダル情報処理とは、画像や音声などの複数のモーダルのデータをコンピュータで処理して予測や分類を行う技術のことである。本講義では,単一モーダルの処理としてディープニューラルネットワークを用いた画像分類と時系列処理を用いた音声認識を学び、次にそれらを組み合わせて応用したマルチモーダル処理の例を学ぶ.また、MATLABを用いて講師が提供するコードを動作させて、学んだ技術の効果を確認して理解を深めていく。
到達目標Goal
・パターン認識の基本的概念を習得する.
・畳み込みニューラルネットワークの処理を理解する。
・音声などの時系列データ処理に適した隠れマルコフモデルの概要を理解する.
・深層ネットワークで時系列データを処理する方法を理解する
・AIによる画像生成や文章先生の仕組みを理解する
。MATLABを使って、自分で撮影した画像の分類が行えるようになる.
この授業を履修することで学部等のディプロマポリシーに示されたどの能力を習得することができるか(該当授業科目と学位授与方針に明示された学習成果との関連)Which item of the diploma policy will be obtained by taking this class?
ディプロマポリシーのうち、「DP1」と「DP2」と「DP4」に関連
授業で使用する言語Default language used in class
日本語 / Japanese
授業の進め方と方法Method(s)(学期の途中で変更になる場合には、別途提示します。 /If the Method(s) is changed, we will announce the details of any changes. )
○授業はスライドを用いた講義形式を主体とする.
○MATLAB環境で,講師から提供されるコードを実行して、講義で取り上げる技術や手法の理解を深める。
○MATLAB環境に自ら撮影した画像/録音した音声を取り込み、提供されたコードで処理した結果と処理内容の説明とをレポートにまとめて提出する
○一部の講義はオンラインで実施予定。授業の方法や授業計画の変更、成績評価方法の変更などが必要になった場合は、学習支援システムでその都度提示する。担当教員から学習支援システムを通じた連絡がないか、日ごろからよく確認するようにしてください。
○講義資料の配布、レポート作成に必要な素材の提供は、「学習支援システム(Hoppii)」を通じて行う
○質問やコメントの受付、およびそれらへのフィードバックは「学習支援システム(Hoppii)」を通じて行う。必要に応じて、質問・コメントを授業内で紹介し、さらなる議論に活かします
アクティブラーニング(グループディスカッション、ディベート等)の実施Active learning in class (Group discussion, Debate.etc.)
なし / No
フィールドワーク(学外での実習等)の実施Fieldwork in class
なし / No
授業計画Schedule
授業形態/methods of teaching:対面/face to face
※各回の授業形態は予定です。教員の指示に従ってください。
1[対面/face to face]:マルチモーダル情報処理とは
・講義の進め方の説明
・統計的モデリング
2[オンライン/online]:機械学習の概要
・教師あり学習
・深層ネットワーク(DNN)による処理の基本系(回帰、分類)
3[オンライン/online]:画像処理における畳み込み(コンボリューション)処理
・画像の表現方法
・畳み込み処理
4[対面/face to face]:畳み込みニューラルネットワーク(CNN)による画像分類
・Alexnetの構成
・MATLABでのCNNの動作確認
5[オンライン/online]:CNNにおける学習アリゴリズム
・深層ネットワークにおける勾配法
・MATLABでのCNNの学習の実践
6[オンライン/online]:CNNの発展形と転移学習
・Alexnet以降のCNNの発展形
・MATLABで転移学習の実践
7[対面/face to face]:深層ネットワークにおける最適化
・極小解が問題でない理由
・過学習
・学習オプション調整の実践
8[対面/face to face]:時系列情報の表現
・音の物理的特性
・系列データの確率的モデリング方法である隠れマルコフモデル(HMM)の基本的概念
9[対面/face to face]:RNNによる系列データのモデル化
・DNNにおける系列データの表現
・RNNの学習方法
10[対面/face to face]:系列データ処理の発展形
・LSTM、ATTENTION処理の概要
11[オンライン/online]:正則化処理
・過学習を抑制する正則化処理の概念
・集合学習とDropout処理の関連
12[対面/face to face]:マルチモーダル処理:物体検出、医療画像処理
・画像分類、音の系列データ処理を組み合わせた応用事例の紹介:物体検出、医療画像処理
13[対面/face to face]:マルチモーダル処理:画像生成、文章生成
・DNNによる画像生成処理、文章生成処理
14[オンライン/online]:振り返り
・授業内で用いたMATLABコードの総括的解説、受けた質問に対する回答の紹介
・レポート作成
授業時間外の学習(準備学習・復習・宿題等)Work to be done outside of class (preparation, etc.)
○本授業の準備・復習等の授業時間外学習は4時間を標準とする
○MATLABの使い方の基礎は講義で説明するが,自習して使いこなすことが必要。MATLABが動作しない,使い方が分からない,という場合はソフトウェアステーションなどで各自解決すること
テキスト(教科書)Textbooks
講義スライドは授業支援システムへ事前にアップする。
参考書References
特になし
成績評価の方法と基準Grading criteria
平常点:60%
・毎回の講義において、講義の感想を授業支援システムにアップすること。
・感想は1~2行でよい
レポート:40%
・レポート課題は3回を予定。内容は、MATLAB環境に自ら撮影した画像/録音した音声を取り込み、提供されたコードで処理した結果と処理内容の説明を記述したもの等とする。
・処理内容の理解が正確であるか、対象とするデータに対して適切な手法を適切に使っているか、が評価基準
学生の意見等からの気づきChanges following student comments
知識の取得のみならず,考える力を身につけることに時間を割くようにする
学生が準備すべき機器他Equipment student needs to prepare
各自のノートPCを使用.最新版のMATLABを使えるようにインストール(アップデート)と必要な設定をすませておくこと
その他の重要事項Others
本年度から、音・光の物理的特性、情報処理でのそれらの取り扱い方の基礎は、H6041 感性工学で扱います。