データサイエンスセンターData Science Center
PRI200LD(情報学基礎 / Principles of informatics 200)データサイエンス応用基礎EThe Basics of Applied Data Science E
廣津 登志夫Toshio HIROTSU
授業コードなどClass code etc
学部・研究科Faculty/Graduate school | データサイエンスセンターData Science Center |
添付ファイル名Attached documents | |
年度Year | 2022 |
授業コードClass code | A9997 |
旧授業コードPrevious Class code | |
旧科目名Previous Class title | |
開講時期Term | 秋学期授業/Fall |
曜日・時限Day/Period | 集中・その他/intensive・other courses |
科目種別Class Type | |
キャンパスCampus | |
教室名称Classroom name | 各学部・研究科等の時間割等で確認 |
配当年次Grade | |
単位数Credit(s) | 2 |
備考(履修条件等)Notes | |
他学部公開科目Open Program | |
他学部公開(履修条件等)Open Program (Notes) | |
グローバル・オープン科目Global Open Program | |
成績優秀者の他学部科目履修制度対象Interdepartmental class taking system for Academic Achievers | |
成績優秀者の他学部科目履修(履修条件等)Interdepartmental class taking system for Academic Achievers (Notes) | |
実務経験のある教員による授業科目Class taught by instructors with practical experience |
すべて開くShow all
すべて閉じるHide All
Outline (in English)
[Course outline]
Data processing using programming languages plays an important role in big data analysis. In this lecture, students will learn the basics of data analysis and data mining through Python programming exercises. This lecture covers basics of all process of the data analysis, such as modeling, analysis, visualization and validation.
(This lecture assumes that students can write simple programs using procedure programming languages such as C, C++, Java, Fortran, Python, Ruby, etc. Note that model and syntax of Python will be covered only to the minimum required for data processing, assuming that students have basic knowledge of programming languages.)
[Learning Objectives]
The objective of this course is to acquire the foundation for handling large-scale data processing in the future.
[Learning activities outside of classroom]
Students will be expected to spend four hours to pre/post study of the course, and solve the assignment every other week.
[Grading Criteria /Policy]
Your overall rating in this class will be calculated from the results of the assignment (100%).
授業で使用する言語Default language used in class
日本語 / Japanese
授業の概要と目的(何を学ぶか)Outline and objectives
ビッグデータの分析においてプログラムによるデータ処理は重要な役割を果たす。本講義では、データ分析やデータマイニングの基礎をPython のプログラミングの演習を通じて学び、将来的に大規模なデータ処理を扱うための基礎を身につけることを目的とする。具体的には、分析の目的や前提条件に応じた適切な課題の把握、対象のモデル化、分析・可視化・検証といった、データ分析に必要となる一連のプロセスを演習を通じて学んでいく。
(本講義では C,C++, Java, Fortran, Python, Ruby などの手続き型プログラミング言語を学んだことがあり、初歩的なプログラムを記述することができることを前提とする。Python の文法等については、本講義受講前のプログラミング言語の知識を前提として、データ処理に必要となる最低限しか扱わないので注意すること)
到達目標Goal
以下のようなことができるようになることを目標とする。
・データ分析の基本的な技術について理解する
・Python を用いて、基本的なデータ処理(モデル化と分析)をする
・Python を用いて、データを視覚化し検証する
授業で使用する言語Default language used in class
日本語 / Japanese
授業の進め方と方法Method(s)(学期の途中で変更になる場合には、別途提示します。 /If the Method(s) is changed, we will announce the details of any changes. )
オンデマンド方式により配信された講義資料と動画で学習し、課題によって知識を定着させる。当初の数週間はデータ分析の準備として、処理に用いるPython の基礎知識を学び、以降は各週ごとにデータ分析や視覚化、検証などのデータ処理に関するトピックを学んでいく。以下の週ごとの内容配分は目安であり、若干、前後する可能性がある。
アクティブラーニング(グループディスカッション、ディベート等)の実施Active learning in class (Group discussion, Debate.etc.)
なし / No
フィールドワーク(学外での実習等)の実施Fieldwork in class
なし / No
授業計画Schedule
授業形態/methods of teaching:オンライン/online
※各回の授業形態は予定です。教員の指示に従ってください。
第1回[オンライン/online]:導入
・データエンジニアリングとは何か
・用いるプログラミング言語について
・プログラミング環境の準備
第2回[オンライン/online]:Python の基礎(1)
・基本的なプログラムの記述
・変数、条件分岐、制御構造
第3回[オンライン/online]:Python の基礎(2)
・Python における手続きの記述
・組み込み関数
第4回[オンライン/online]:Python の基礎(3)
・複合データの記述
・ファイル入出力処理
第5回[オンライン/online]:データ処理の基礎
・モジュールの利用
・基本的なデータ処理
第6回[オンライン/online]:記述統計
・ヒストグラム、平均、中央値、最頻値、分散、標準
偏差
第7回[オンライン/online]:データの視覚化
・分布の描画
・箱ひげ図の描画
第8回[オンライン/online]:単回帰
・単回帰による分析
第9回[オンライン/online]:データ加工
・データ欠損への対応
・データクレンジング
第10回[オンライン/online]:重回帰
・重回帰による分析
第11回[オンライン/online]:ロジスティック回帰
・ロジスティック回帰による分析
第12回[オンライン/online]:決定木
・決定木
・セグメントの抽出とその特徴
第13回[オンライン/online]:クラスタリング
・教師なし学習
・k近傍法
・クラスター数の推定
第14回[オンライン/online]:モデルの精度と検証
・主成分分析
・モデルの検証
授業時間外の学習(準備学習・復習・宿題等)Work to be done outside of class (preparation, etc.)
本授業の準備・復習等の授業時間外学習は、各週につき 4 時間を標準とする。講義資料と教科書により復習すると同時に課題に取り組むこと。
テキスト(教科書)Textbooks
参考書などをベースに作成した講義資料(スライド PDF)を提供する。
参考書References
・東京大学のデータサイエンティスト育成講座、マイナビ出版、2019
・R とPython で学ぶ実践的データサイエンス&機械学習、技術評論社、2021
成績評価の方法と基準Grading criteria
各回の講義内容に対する課題による(100%)
学生の意見等からの気づきChanges following student comments
特になし
学生が準備すべき機器他Equipment student needs to prepare
Python を使うことができるPC(Windows, Mac, Linux のいずれでも可、ソフトウェアの導入については初回講義に説明を入れるので事前準備は不要)
その他の重要事項Others
本講義は C,C++, Java, Fortran, Python, Ruby などの手続き型プログラミング言語を学んだことがあり、初歩的なプログラムを記述することができることを前提としている。Python の文法等については、本講義受講前のプログラミング言語の知識を前提として、データ処理に必要となる最低限しか扱わない。 Pythonプログラミングを学ぶ目的であれば本講義の趣旨に合わないので、そのための講義を履修すること。また、プログラミングの経験に乏しい場合は、来年度以降 R による同内容の講義が開設される予定であるので、そちらを履修することをすすめる。