全学共通教育プラットフォームIntegrated Education Platform
PRI200LD(情報学基礎 / Principles of informatics 200)データサイエンス応用基礎EThe Basics of Applied Data Science E
廣津 登志夫Toshio HIROTSU
授業コードなどClass code etc
学部・研究科Faculty/Graduate school | 全学共通教育プラットフォームIntegrated Education Platform |
添付ファイル名Attached documents | |
年度Year | 2023 |
授業コードClass code | A9807 |
旧授業コードPrevious Class code | |
旧科目名Previous Class title | |
開講時期Term | 春学期授業/Spring |
曜日・時限Day/Period | 集中・その他/intensive・other courses |
科目種別Class Type | |
キャンパスCampus | |
教室名称Classroom name | 市市他‐その他 |
配当年次Grade | |
単位数Credit(s) | 2 |
備考(履修条件等)Notes | |
他学部公開科目Open Program | |
他学部公開(履修条件等)Open Program (Notes) | |
グローバル・オープン科目Global Open Program | |
成績優秀者の他学部科目履修制度対象Interdepartmental class taking system for Academic Achievers | |
成績優秀者の他学部科目履修(履修条件等)Interdepartmental class taking system for Academic Achievers (Notes) | |
実務経験のある教員による授業科目Class taught by instructors with practical experience | |
SDGsCPSDGs CP | |
アーバンデザインCPUrban Design CP | |
ダイバーシティCPDiversity CP | |
未来教室CPLearning for the Future CP | |
カーボンニュートラルCPCarbon Neutral CP | |
千代田コンソ単位互換提供(他大学向け)Chiyoda Campus Consortium | |
カテゴリーCategory |
データサイエンス科目群 データサイエンス科目群(応用基礎レベル) |
すべて開くShow all
すべて閉じるHide All
Outline (in English)
[Course outline]
Data processing using programming languages plays an important role in big data analysis. In this lecture, students will learn the basics of data analysis and data mining through Python programming exercises. This lecture covers basics of all process of the data analysis, such as modeling, analysis, visualization and validation.
(This lecture assumes that students can write simple programs using procedure programming languages such as C, C++, Java, Fortran, Python, Ruby, etc. Note that model and syntax of Python will be covered only to the minimum required for data processing, assuming that students have basic knowledge of programming languages.)
[Learning Objectives]
The objective of this course is to acquire the foundation for handling large-scale data processing in the future.
[Learning activities outside of classroom]
Students will be expected to spend four hours to pre/post study of the course, and solve the assignment every other week.
[Grading Criteria /Policy]
Your overall rating in this class will be calculated from the results of the assignment (100%).
授業で使用する言語Default language used in class
日本語 / Japanese
授業の概要と目的(何を学ぶか)Outline and objectives
ビッグデータの分析においてプログラムによるデータ処理は重要な役割を果たす。本講義では、データ分析やデータマイニングの基礎をPython のプログラミングの演習を通じて学び、将来的に大規模なデータ処理を扱うための基礎を身につけることを目的とする。具体的には、分析の目的や前提条件に応じた適切な課題の把握、対象のモデル化、分析・可視化・検証といった、データ分析に必要となる一連のプロセスを演習を通じて学んでいく。
(本講義では C,C++, Java, Fortran, Python, Ruby などの手続き型プログラミング言語を学んだことがあり、初歩的なプログラムを記述することができることを前提とする。Python の文法等については、本講義受講前のプログラミング言語の知識を前提として、データ処理に必要となる最低限しか扱わないので注意すること)
到達目標Goal
以下のようなことができるようになることを目標とする。
・データ分析の基本的な技術について理解する
・Python を用いて、基本的なデータ処理(モデル化と分析)をする
・Python を用いて、データを視覚化し検証する
この授業を履修することで学部等のディプロマポリシーに示されたどの能力を習得することができるか(該当授業科目と学位授与方針に明示された学習成果との関連)Which item of the diploma policy will be obtained by taking this class?
大学のディプロマポリシーのうち、「法政DP-Ⅲ」「法政DP-Ⅳ」に関連。
大学のディプロマポリシー詳細はこちら。
https://www.hosei.ac.jp/hosei/daigakugaiyo/rinen/hoshin/gakui_juyo/
授業で使用する言語Default language used in class
日本語 / Japanese
授業の進め方と方法Method(s)(学期の途中で変更になる場合には、別途提示します。 /If the Method(s) is changed, we will announce the details of any changes. )
オンデマンド方式により配信された講義資料と動画で学習し、課題によって知識を定着させる。当初の数週間はデータ分析の準備として、処理に用いるPython の基礎知識を学び、以降は各週ごとにデータ分析や視覚化、検証などのデータ処理に関するトピックを学んでいく。週1回のペースで講義映像が開示されるので、遅れずに視聴し学習すること(一定期間で視聴不可になるので注意)。
アクティブラーニング(グループディスカッション、ディベート等)の実施Active learning in class (Group discussion, Debate.etc.)
なし / No
フィールドワーク(学外での実習等)の実施Fieldwork in class
なし / No
授業計画Schedule
授業形態/methods of teaching:オンライン/online
※各回の授業形態は予定です。教員の指示に従ってください。
第1回[オンライン/online]:導入
・データエンジニアリングとは何か
・コンピュータの基礎
・用いるプログラミング言語について
・プログラミング環境の準備
第2回[オンライン/online]:Python入門(1)
・基本的なプログラムの記述
・変数、リスト
・条件分岐、制御構造
第3回[オンライン/online]:Python入門(2)
・辞書型データ
・関数
・組み込み関数
第4回[オンライン/online]:Python入門(3)
・クラス(複合データの記述)
・ファイル入出力処理
第5回[オンライン/online]:ライブラリの利用(1)
・モジュールの仕組み
・標準ライブラリ
第6回[オンライン/online]:ライブラリの利用(2)
・NumPy
・SciPy
第7回[オンライン/online]:データ加工
・Pandasによるデータ処理
・データ欠損への対応
・データクレンジング
第8回[オンライン/online]:データの視覚化
・Matplotlibによる描画
・分布の描画
・箱ひげ図の描画
第9回[オンライン/online]:記述統計と単回帰
・ヒストグラム、平均、中央値、最頻値、分散、標準
偏差
・単回帰による分析
・データ処理フローの理解
第10回[オンライン/online]:機械学習:回帰モデル
・回帰モデル
・重回帰による分析
第11回[オンライン/online]:機械学習:ロジスティック回帰
・ロジスティック回帰による分析
第12回[オンライン/online]:機械学習:決定木
・決定木
・セグメントの抽出とその特徴
第13回[オンライン/online]:機械学習:教師なし学習
・教師なし学習
・クラスタリング
・クラスター数の推定
第14回[オンライン/online]:機械学習:モデルの精度と検証
・主成分分析
・モデルの検証
授業時間外の学習(準備学習・復習・宿題等)Work to be done outside of class (preparation, etc.)
本授業の準備・復習等の授業時間外学習は、各週につき 4 時間を標準とする。講義資料や映像により復習すると同時に課題に取り組むこと。
テキスト(教科書)Textbooks
参考書などをベースに作成した講義資料(スライド PDF)を提供する。
参考書References
・東京大学のデータサイエンティスト育成講座、マイナビ出版、2019
・R とPython で学ぶ実践的データサイエンス&機械学習、技術評論社、2021
成績評価の方法と基準Grading criteria
各回の講義内容に対する課題による(100%)
なお、講義映像は対面講義の教室での座学授業に替わるものであることから、授業への出席が単位取得の前提であるのと同様、その視聴は単位取得の前提となる。
学生の意見等からの気づきChanges following student comments
前年度、一部に受講生が映像視聴の考え方(視聴が単位取得の前提)で混乱したようなので、成績評価の基準ではないが上記に明示した。
学生が準備すべき機器他Equipment student needs to prepare
Python を使うことができるPC(Windows, Mac, Linux のいずれでも可、ソフトウェアの導入については初回講義に説明をするので事前準備は不要)
その他の重要事項Others
本講義は C,C++, Java, Fortran, Python, Ruby などの手続き型プログラミング言語を学んだことがあり、初歩的なプログラムを記述することができることを前提としている。Python の文法等については、本講義受講前のプログラミング言語の知識を前提として、データ処理に必要となる最低限しか扱わない。 Pythonプログラミングを学ぶ目的であれば本講義の趣旨に合わないので、そのための講義を履修すること。また、プログラミングの経験に乏しい場合は、R による同内容の講義が開設されるので、そちらを履修することをすすめる。なお、本講義は「データサイエンス応用基礎F」と同等の内容であることから、重複して履修することはできない。