情報科学部Faculty of Computer and Information Sciences
HUI312KA-CS-334(人間情報学 / Human informatics 300)音声情報処理Speech Processing
大石 康智Yasunori OHISHI
授業コードなどClass code etc
学部・研究科Faculty/Graduate school | 情報科学部Faculty of Computer and Information Sciences |
添付ファイル名Attached documents | |
年度Year | 2022 |
授業コードClass code | J0557 |
旧授業コードPrevious Class code | |
旧科目名Previous Class title | |
開講時期Term | 秋学期授業/Fall |
曜日・時限Day/Period | 木5/Thu.5 |
科目種別Class Type | |
キャンパスCampus | 小金井 / Koganei |
教室名称Classroom name | 各学部・研究科等の時間割等で確認 |
配当年次Grade | |
単位数Credit(s) | 2 |
備考(履修条件等)Notes | |
他学部公開科目Open Courses | |
他学部公開(履修条件等)Open Courses (Notes) | |
グローバル・オープン科目Global Open Courses | |
成績優秀者の他学部科目履修制度対象Interdepartmental class taking system for Academic Achievers | ○ |
成績優秀者の他学部科目履修(履修条件等)Interdepartmental class taking system for Academic Achievers (Notes) |
(1) 受講希望者 (受講検討中の者も含む) は、情報科学部学部Googleフォーム(https://forms.gle/ECvwxVe2NcxmrbTK9)で初回講義前までに希望申請をしてください。(※以下URLのご案内があるGoogleフォームとは異なるのでご注意ください。) (2) 以下のURLと教育開発支援機構事務局の案内に従って、履修希望の申請を行ってください。 https://www.hoseikyoiku.jp/risyu/index.html (3) 履修取消については、ご自身の所属学部の履修取消期間内に必ず同時に履修削除を行ってください。 |
実務経験のある教員による授業科目Class taught by instructors with practical experience | ○ |
SDGsCPSDGs CP | |
アーバンデザインCPUrban Design CP | |
ダイバーシティCPDiversity CP | |
未来教室CPLearning for the Future CP | |
カーボンニュートラルCPCarbon Neutral CP | |
千代田コンソ単位互換提供(他大学向け)Chiyoda Campus Consortium | |
選択・必修Optional/Compulsory | |
カテゴリー(2022年度以降入学者)Category (2022~) | |
カテゴリー(2021年度以前入学者)Category (~2021) | |
カテゴリーCategory |
専門教育科目 専門科目 |
すべて開くShow all
すべて閉じるHide All
Outline (in English)
The aim of this course is to provide students with the basic skills to handle speech on a computer. Computers can be used to generate speech and to process recorded speech. The technology that makes this possible is digital signal processing. In this lecture, we will first introduce speech modeling methods based on the mechanism of speech production and auditory characteristics. Students will try some examples of speech processing techniques. Finally, we introduce speech-related web/cloud APIs as applied technologies for speech processing.
By the end of the course, students should be able to do the followings:
- To utilize techniques of digital signal processing and speech processing
- To utilize speech-related web/cloud APIs and tools
Before/after each class meeting, students will be expected to spend four hours to understand the course content. Before each class meeting, students will be expected to have read the relevant chapter from the text. Students are required to select some of the assignments they were unable to solve during the exercise time and complete them as homework. Students are also required to write a report on their final assignment including outside the class.
Final grade will be calculated according to the following process Final report (60%), Term-end examination (40%), and in-class contribution. (If the number of students is small, the term-end examination will not be held.)
授業で使用する言語Default language used in class
日本語 / Japanese
授業の概要と目的(何を学ぶか)Outline and objectives
音声をコンピュータで扱う基礎的な能力を身に付けることを目標とします。
コンピュータを使うと、音声を生成したり、取り込んだ音声を加工できます。これらを可能にする技術がディジタル信号処理です。
本講義では、まず音声の発声方法や聴覚特性に基づく音声のモデル化手法を紹介します。
次に、その技法を用いて実現できる音声処理の技法のいくつかの例を取り上げます。
最後に、音声処理の応用技術として、音声関係の web/cloud API を紹介します。
到達目標Goal
MATLABを用いてディジタル音声処理の技法を活用できる。
音声関係の web/cloud API やツールを利用できる。
この授業を履修することで学部等のディプロマポリシーに示されたどの能力を習得することができるか(該当授業科目と学位授与方針に明示された学習成果との関連)Which item of the diploma policy will be obtained by taking this class?
ディプロマポリシーのうち「DP4-1」と「DP4-2」、「DP4-3」に関連
授業で使用する言語Default language used in class
日本語 / Japanese
授業の進め方と方法Method(s)(学期の途中で変更になる場合には、別途提示します。 /If the Method(s) is changed, we will announce the details of any changes. )
役立つ技能の習得のために、取り上げる技法はプログラミングと関連付けて紹介する。また、実際の音声データを扱う。
簡単にプログラミングするために MATLAB を利用する。
API は python で利用することを想定する。
課題は、授業で主要なものを発表させ、解説する。
最終課題のテーマに関しては、事前に提出させ、要件を満たさないものに関しては、その旨、授業で告知する。
また、最終課題のレポートは、第1版に関して、書き方に問題がある点を授業で解説する。最終課題に関しては、優秀なものを発表会で発表させる。
アクティブラーニング(グループディスカッション、ディベート等)の実施Active learning in class (Group discussion, Debate.etc.)
あり / Yes
フィールドワーク(学外での実習等)の実施Fieldwork in class
なし / No
授業計画Schedule
授業形態/methods of teaching:オンライン/online
※各回の授業形態は予定です。教員の指示に従ってください。
1[オンライン/online]:ガイダンス
概要/基礎知識確認/MATLAB復習/代表的な音声アプリケーション/音声とは
2[オンライン/online]:母音の生成
母音の音声波形の観察/母音の発声/母音発声の物理モデル/声道フィルタを用いた母音の合成
3[オンライン/online]:母音と子音の発声
母音の分類/子音の分類/ホルマントと調音位置
4[オンライン/online]:音声の聴取
人の聴覚系/蝸牛/聴覚尺度/メルスペクトル
5[オンライン/online]:音声の分解
音韻の分析/ケプストラム
6[オンライン/online]:音声の分析
聴覚末梢神経系における音声情報処理/プリエンファシス/時間方向の分解/対数変換/メル周波数スケール変換/スペクトルのピーク強調
7[オンライン/online]:母音の認識
ホルマントと母音/ホルマントの多様性/正規分布によるモデル化/多次元正規分布/GMM
8[オンライン/online]:音節の認識
日本語の子音の体系/MFCCによる音韻の認識
9[オンライン/online]:音節の系列の認識
音声情報の時間スケール/調音結合とホルマント推移/デルタパラメータ
10[オンライン/online]:韻律の認識
日本語のイントネーションとアクセント/基本周波数検出/歌声のf0
11 [オンライン/online]:長い発話の認識
長い発話が伝える情報/発話の単位/感情と態度/個人性/声質とスピーチスタイル
12[オンライン/online]:簡単な音声合成
モデルベースの合成法/波形ベースの合成法
13[オンライン/online]:音声対話とさまざまなアプリケーション
音声の伝搬と知覚/音声区間検出
14[オンライン/online]:まとめ
全体の内容を振り返る。
授業時間外の学習(準備学習・復習・宿題等)Work to be done outside of class (preparation, etc.)
本授業の準備・復習等の授業時間外学習は、各週につき4時間を標準とする。
準備学習として、テキストを読み予習課題に取り組む。演習時間に解けなかった課題をいくつか選び、宿題として完成させる。また、最終課題である自主課題は授業外も含めて取り組みレポートを作成する。
テキスト(教科書)Textbooks
配布する資料に基づいて講義を進める。
参考書References
書名:Theory and Applications of Digital Speech Processing
著者名:L. R. Rabiner, R. W. Schafer
出版社:Pearson
出版年:2011
書名: MATLABで学ぶ実践画像・音声処理入門
著者名: 伊藤克亘、小泉悠馬、花泉弘
出版社: コロナ社
出版年: 2019
書名: Pythonで学ぶ実践画像・音声処理入門
著者名: 伊藤克亘、小泉悠馬、花泉弘
出版社: コロナ社
出版年: 2018
成績評価の方法と基準Grading criteria
最終課題(60%)、定期試験(40%)で評価する(受講人数が少ない場合は、定期試験を実施しない)。ただし、講義内の課題を授業で発表した場合には加点する。また、講義内の課題の取り組み状況を考慮する場合がある。
学生の意見等からの気づきChanges following student comments
特になし。
学生が準備すべき機器他Equipment student needs to prepare
学習支援システム、web ページ、ノートPCを利用する。
その他の重要事項Others
「プログラミング(MATLAB)」「ディジタル信号処理」「統計学2」を履修していることを期待する。また、「音と光」「情報理論」「パターン認識と機械学習」「科学技術計算」「オペレーションリサーチ」を並行して履修することが望ましい。また、できれば、「画像処理」も並行して履修することが望ましい。
また、受講希望者は、第1回の講義の前に、MATLAB がインストールされているか確認しておくこと。R2021a かそれ以降が望ましい。
http://software.k.hosei.ac.jp/others/
https://software.k.hosei.ac.jp/matlab_manual/MATLAB_student.pdf (後者のファイルは、VPN を使わないとアクセスできない)
本講義は担当教員の企業研究所での音声に関する研究の経験を元に行う。