理工学部Faculty of Science and Engineering
COT300XE(計算基盤 / Computing technologies 300)マルチモーダル情報処理Multi-modal Information Processing
倉掛 正治Shoji KURAKAKE
授業コードなどClass code etc
学部・研究科Faculty/Graduate school | 理工学部Faculty of Science and Engineering |
添付ファイル名Attached documents | |
年度Year | 2024 |
授業コードClass code | H6107 |
旧授業コードPrevious Class code | |
旧科目名Previous Class title | |
開講時期Term | 秋学期授業/Fall |
曜日・時限Day/Period | 金4/Fri.4 |
科目種別Class Type | |
キャンパスCampus | 小金井 |
教室名称Classroom name | 小西館‐W305 |
配当年次Grade | 3年 |
単位数Credit(s) | |
備考(履修条件等)Notes | |
他学部公開科目Open Program | |
他学部公開(履修条件等)Open Program (Notes) | |
グローバル・オープン科目Global Open Program | |
成績優秀者の他学部科目履修制度対象Interdepartmental class taking system for Academic Achievers | |
成績優秀者の他学部科目履修(履修条件等)Interdepartmental class taking system for Academic Achievers (Notes) | |
実務経験のある教員による授業科目Class taught by instructors with practical experience | |
SDGsCPSDGs CP | |
アーバンデザインCPUrban Design CP | |
ダイバーシティCPDiversity CP | |
未来教室CPLearning for the Future CP | |
カーボンニュートラルCPCarbon Neutral CP | |
千代田コンソ単位互換提供(他大学向け)Chiyoda Campus Consortium | |
カテゴリー<理工学部>Category |
応用情報工学科 学科専門科目 |
すべて開くShow all
すべて閉じるHide All
Outline (in English)
Multimodal information processing is about technologies for prediction and classification using different modal data, such as image, audio and text. Students will learn single and multi modal data processing technologies. For image processing, convolutional neural network is introduced. For speech recognition, hidden Markova model, RNN and LSTM are explained. Then applications of Large Language Model: LLM for multimodal tasks are reviewed.
Student will have opportunities to use MATLAB code provided by the lecturer and deepen the level of understanding for technologies learned through the course.
[Learning activities outside of classroom]
The review and the preparation of each lesson will take 4 hours. The way to use MATLAB should be learnt by students themselves. The help form the staff at the software center for the setting related things is available.
[Grading Criteria /Policy]
Grade is determined 40% by the submission of the assignment for each lesson and 60% by the evaluation of reports.
授業で使用する言語Default language used in class
日本語 / Japanese
授業の概要と目的(何を学ぶか)Outline and objectives
マルチモーダル情報処理とは、chatGPT4.0 等のように画像・音声・テキストといった複数のモーダルのデータをコンピュータで処理して予測や分類や生成を行う技術のことである。本講義では、単一モーダルの処理としてディープニューラルネットワークを用いた画像分類と音声処理を学び、次にそれらの発展形として大規模言語モデルによるマルチモーダル処理の例を学ぶ。また、MATLAB環境で学んだ技術を実際に使用して(提供されるコードを動作させる)、講義内容の理解を深めていく。
到達目標Goal
・畳み込みニューラルネットワークの処理を理解する。
・深層ネットワークで時系列データを処理する方法を理解する。
・AIによる画像生成や文章生成の仕組みを理解する。
・MATLABを使って、自分で撮影した画像の分類が行えるようになる。
この授業を履修することで学部等のディプロマポリシーに示されたどの能力を習得することができるか(該当授業科目と学位授与方針に明示された学習成果との関連)Which item of the diploma policy will be obtained by taking this class?
ディプロマポリシーのうち、「DP1」と「DP2」と「DP4」に関連
授業で使用する言語Default language used in class
日本語 / Japanese
授業の進め方と方法Method(s)(学期の途中で変更になる場合には、別途提示します。 /If the Method(s) is changed, we will announce the details of any changes. )
○授業はスライドを用いた講義形式で行われる。
○MATLAB環境で講師から提供されるコードを実行して、講義で取り上げる技術や手法の理解を深める。
○MATLAB環境に自ら撮影した画像/録音した音声を取り込み、提供されたコードで処理した結果と処理内容の説明とをレポートにまとめて提出する。
○一部の講義はオンラインで実施される。授業の方法や授業計画の変更、成績評価方法の変更などが必要になった場合は、学習支援システムでその都度通知される。
○講義資料の配布、レポート作成に必要な素材の提供は、「学習支援システム(Hoppii)」を通じて行われる。
○質問やコメントの受付、およびそれらへのフィードバックは「学習支援システム(Hoppii)」を通じて行われる。必要に応じて、質問・コメントが授業内で紹介されることがあり、さらなる議論に活かされる。
アクティブラーニング(グループディスカッション、ディベート等)の実施Active learning in class (Group discussion, Debate.etc.)
なし / No
フィールドワーク(学外での実習等)の実施Fieldwork in class
なし / No
授業計画Schedule
授業形態/methods of teaching:対面/face to face
※各回の授業形態は予定です。教員の指示に従ってください。
1[対面/face to face]:マルチモーダル情報処理とは
・講義の進め方の説明
・統計的モデリング
2[対面/face to face]:機械学習の概要
・教師あり学習
・深層ネットワーク(DNN)による処理の基本(回帰、分類)
3[対面/face to face]:画像処理における畳み込み(コンボリューション)処理
・画像の表現方法
・畳み込み処理
4[オンライン/online]:畳み込みニューラルネットワーク(CNN)による画像分類
・Alexnetの構成
・MATLABでのCNNの動作確認
5[オンライン/online]:CNNにおける学習アリゴリズム
・深層ネットワークにおける勾配法
・MATLABでのCNNの学習の実践
6[対面/face to face]:CNNの発展形と転移学習
・Alexnet以降のCNNの発展形
・MATLABでの転移学習の実践
7[オンライン/online]:深層ネットワークにおける最適化
・最適化において極小解が問題とならない理由
・学習不足と過学習
・学習オプション調整の実践
8[対面/face to face]:系列データの表現と処理の基礎
・系列データとしての音の表現
・隠れマルコフモデル(HMM)の基本的概念
9[対面/face to face]:RNNによる系列データのモデル化
・DNNにおける系列データの表現
・RNNの学習方法
10[オンライン/online]:系列データ処理の発展形
・LSTM、ATTENTION処理の概要
11[オンライン/online]:正則化処理と生成AI
・過学習を抑制する正則化処理の概念
・集合学習とDropout処理
・物体検出、医用応用、画像生成
12[対面/face to face]:大規模言語モデルによるマルチモーダル処理
・大規模言語モデルの構成と学習手法
・テキストと画像を組み合わせるマルチモーダル処理
13[対面/face to face]:最終レポート検討
・最終レポートの作成
14[オンライン/online]:最終レポートの振り返りとマルチモーダル処理の実例
・最終レポートの提出結果のレビュー
・無料アカウントで生成AIの活用実践
授業時間外の学習(準備学習・復習・宿題等)Work to be done outside of class (preparation, etc.)
○本授業の準備・復習等の授業時間外学習は4時間を標準とする。
○MATLABの使い方の基礎は講義で説明するが、自習して使いこなすことが必要。MATLABが動作しない、使い方が分からない、という場合はソフトウェアステーションなどで各自解決すること。
テキスト(教科書)Textbooks
講義スライドは授業支援システムへ事前にアップする。
参考書References
特になし。
成績評価の方法と基準Grading criteria
平常点:40%
・毎回の講義において、講義の感想を授業支援システムにアップすること。
・感想は1~2行でよい。
レポート:60%
・レポート課題は3回を予定。内容は、MATLAB環境での自ら撮影した画像/録音した音声の取り込み、提供されたコードでのデータの処理と結果の考察、等とする。
・処理内容の理解が正確であるか、対象とするデータに対して適切な手法を適切に使っているか、が評価基準。
学生の意見等からの気づきChanges following student comments
実際のデータで処理を実践することで、処理に関する知識の取得のみならず、どのように処理法を適用するかについて考える力を身につけることに時間を割くようにする。
学生が準備すべき機器他Equipment student needs to prepare
各自のノートPCを使用する。必ず最新版のMATLABを使えるようにインストール(アップデート)と必要な設定をすませておくこと。
その他の重要事項Others
音・光の物理的特性、情報処理でのそれらの取り扱い方の基礎は、H6041 感性工学で扱います。