理工学研究科Graduate School of Science and Engineering
HUI500X3(人間情報学 / Human informatics 500)自然言語処理特論Natural Language Processing
別所 克人Katsuji BESSHO
授業コードなどClass code etc
学部・研究科Faculty/Graduate school | 理工学研究科Graduate School of Science and Engineering |
添付ファイル名Attached documents | |
年度Year | 2022 |
授業コードClass code | YB027 |
旧授業コードPrevious Class code | |
旧科目名Previous Class title | |
開講時期Term | 秋学期授業/Fall |
曜日・時限Day/Period | 金5/Fri.5 |
科目種別Class Type | |
キャンパスCampus | 小金井 |
教室名称Classroom name | 各学部・研究科等の時間割等で確認 |
配当年次Grade | |
単位数Credit(s) | 2 |
備考(履修条件等)Notes | |
実務経験のある教員による授業科目Class taught by instructors with practical experience | |
カテゴリーCategory | 応用情報工学専攻 |
すべて開くShow all
すべて閉じるHide All
Outline (in English)
【Course outline】
With the development of Internet technology, many documents are overflowing. In order to make effective use of these, natural language processing technology is indispensable. In this course, we will understand and acquire the basic method of natural language analysis, and also refer to document retrieval and machine translation which are its applied methods, and understand the analysis and applied technology of natural language described by humans.
【Learning Objectives】
The goal of this lecture is to understand the mechanism of basic natural language analysis technology such as morphological analysis and parsing at a level where it can be created as needed or existing analysis tools can be applied to applications. The ultimate goal is to acquire the knowledge to learn the contents of natural language processing research by understanding the technical terms.
【Learning activities outside of classroom】
Before/after each class meeting, students will be expected to spend four hours to understand the course content.
Report assignments (homework) will be given three times during the period.
【Grading Criteria /Policies】
Participation degree : 42%
Report assignments (homework) : 58% (Scheduled 3 times during the period)
This evaluation method is used for both online and face-to-face.
授業で使用する言語Default language used in class
日本語 / Japanese
授業の概要と目的(何を学ぶか)Outline and objectives
インターネット技術の発展に伴い,多くの文書があふれている.これらを有効に活用するためには,自然言語処理技術が必須である.本論では,自然言語解析の基本的手法を理解・習得するとともに,その応用法である文書検索,機械翻訳にも言及し,人間が記述した自然言語の解析,応用技術を理解する.
到達目標Goal
本講義では,形態素解析,構文解析などの自然言語解析基本技術の仕組みを,必要に応じて作成できる,または既存の解析ツールをアプリケーションに応用できるレベルで理解することを目標とする.また,専門用語を理解することによって,自然言語処理研究の内容を自習できる知識を身につけることを最終目標とする.
この授業を履修することで学部等のディプロマポリシーに示されたどの能力を習得することができるか(該当授業科目と学位授与方針に明示された学習成果との関連)Which item of the diploma policy will be obtained by taking this class?
ディプロマポリシーのうち、「DP1」「DP2」「DP3」に関連
授業で使用する言語Default language used in class
日本語 / Japanese
授業の進め方と方法Method(s)(学期の途中で変更になる場合には、別途提示します。 /If the Method(s) is changed, we will announce the details of any changes. )
人間が記述したテキストは,文字から成り立っており,文字が集まると単語に,単語が集まると文になる.本講では,単なるバイトコードであるテキストから,意味をとらえるまでの解析技術を,レベルに分けて解説する.また,自然言語処理の適用技術として,機械翻訳,文書検索,文書分類も紹介する.
講義は,各回のテーマに合わせたスライドによる説明を中心とする.また,レポート課題(宿題)を出す.資料の配布,課題の配布・提出・フィードバックは学習支援システムを通じて行う予定である.
アクティブラーニング(グループディスカッション、ディベート等)の実施Active learning in class (Group discussion, Debate.etc.)
なし / No
フィールドワーク(学外での実習等)の実施Fieldwork in class
なし / No
授業計画Schedule
授業形態/methods of teaching:対面/face to face
※各回の授業形態は予定です。教員の指示に従ってください。
1[オンライン/online]:自然言語処理の概要及び文字コードセット
自然言語処理の適用分野や流れ,関連分野など,自然言語処理と講義の概要を説明する.次に,コンピュータから見ると,単なるバイト列である文字列を,言語として扱うため,コンピュータにおける文字の表現方法(文字コードセット)を説明する.
2[対面/face to face]:文字列検索と辞書
文字列がどのような単語からできているかは,自然言語解析の基本であるため,単語を集めた辞書と文字列の照合は頻繁に行われる.この回は文字列照合と辞書検索に焦点をあて,代表的アルゴリズムを説明する.
3[対面/face to face]:形態素解析:
英語の品詞タグ付け
文字列がどのような単語から成り立っているかを解析する「形態素解析」の前半.まず,単語の文法的特徴を表現する「品詞」を説明し,単語に品詞を付与するための統計モデル(講義ではHMMを扱う)を紹介する.
4[対面/face to face]:形態素解析:
最適経路探索
形態素解析の後半.英単語に対する品詞タグ付を効率的に行うアルゴリズムを説明して,日本語形態素解析へ拡張する.
5[対面/face to face]:コーパスと評価
近年の自然言語処理は,実例を集めた「コーパス」に基づいて,機械学習などの技法を使って行われている.この回では,代表的コーパスの紹介とコーパスに基づく言語処理の評価法について説明する.
6[対面/face to face]:自然言語処理応用:
文書検索
形態素解析ができるだけでも,さまざまなアプリケーションを作ることができる.この回では,インターネット検索に代表される文書検索について,そこで使われる技術の解説を行う.
7[対面/face to face]:自然言語処理応用:
文書分類とクラスタリング
形態素解析を使った応用技術の2つ目.メールの分類などに使用されている文書分類技術と文書のクラスタリング技術について解説する.
8[対面/face to face]:構文解析:
日本語係り受け解析
形態素解析と並ぶ基本技術である構文解析(文の構造解析)について,2回に分けて説明する.前半は日本語の構文解析で,文節間の係り受けを解析する方法を説明する.
9[対面/face to face]:構文解析:
文脈自由文法の解析
英語などの構文解析では,句を単位とした構造解析が主流である.この回では,文脈自由文法と呼ばれる文法を用いて,英語の文構造を解析する方法について説明する.
10[対面/face to face]:言語モデル
言語モデルは,文のもっともらしさを測るもので,音声認識,機械翻訳など,広範囲な応用分野で使われている基本技術である.この回では,代表的言語モデルであるNグラムモデルについて解説する.
11[対面/face to face]:自然言語処理応用:
機械翻訳の概要
自然言語処理の最も直接的な応用である機械翻訳を2回に分けて説明する.前半は,機械翻訳の難しさと,その規則による解法を説明し,近年の統計翻訳のモデルを説明する.
12[対面/face to face]:自然言語処理応用:
句に基づく統計翻訳
機械翻訳の後半では,代表的方法である句に基づく統計翻訳について,その学習方法と翻訳方法について説明する.
13[対面/face to face]:意味解析
言語の意味を工学的に捉える方法を紹介する.ここでは,単語の意味解析と,文の意味解析の概要を説明する.
14[対面/face to face]:自然言語処理応用:
質問応答
スマートフォンなどで一般的になった,質問応答システムについて,使われている技術の概要を説明する.
授業時間外の学習(準備学習・復習・宿題等)Work to be done outside of class (preparation, etc.)
【本授業の準備・復習時間は,各4時間を標準とします.】レポート課題(宿題)を期間中3回出す予定.
テキスト(教科書)Textbooks
教科書は使用せず,スライドで講義する.
参考書References
奥村学「自然言語処理の基礎」,コロナ社,ISBN:978-4-339-02451-7
成績評価の方法と基準Grading criteria
平常点:42%
レポート課題(宿題): 58%(期間中3回予定)
オンライン,対面形式ともにこの評価方法を利用する.
学生の意見等からの気づきChanges following student comments
既存ツールなどを用いて事後復習することを強く推奨する.
学生が準備すべき機器他Equipment student needs to prepare
レポート課題(宿題)の内,1つはコンピュータソフト(Windows用)を使用する課題とする予定.
その他の重要事項Others
オンラインでの開講となった場合,オンライン授業の方法や授業計画の変更,成績評価方法の変更などについては,学習支援システムなど指定の方法でその都度提示する.担当教員から連絡がないか,日ごろからよく確認すること.