理工学研究科Graduate School of Science and Engineering
HUI500X4(人間情報学 / Human informatics 500)知識獲得特論Intelligence Acquisition
劉 健全Jianquan LIU
授業コードなどClass code etc
学部・研究科Faculty/Graduate school | 理工学研究科Graduate School of Science and Engineering |
添付ファイル名Attached documents | |
年度Year | 2023 |
授業コードClass code | YC034 |
旧授業コードPrevious Class code | |
旧科目名Previous Class title | |
開講時期Term | 春学期授業/Spring |
曜日・時限Day/Period | 月4/Mon.4 |
科目種別Class Type | |
キャンパスCampus | 小金井 |
教室名称Classroom name | 各学部・研究科等の時間割等で確認 |
配当年次Grade | |
単位数Credit(s) | 2 |
備考(履修条件等)Notes | |
実務経験のある教員による授業科目Class taught by instructors with practical experience | |
カテゴリーCategory | システム理工学専攻 |
すべて開くShow all
すべて閉じるHide All
Outline (in English)
[Abstract]
In this course, a series of technologies for information processing and knowledge acquisition focusing on big data will be introduced, including the core fundamental theories and practical techniques for data mining. During the whole course, the fundamental theory related to knowledge discovery will be introduced first. Then, the practical techniques for information retrieval, link analysis, web or text data analysis, and other methods for knowledge acquisition, will be introduced. Finally, recent research topics related to AI, Big Data, and IoT will be introduced as extended knowledge.
[Objectives / Goals]
The objective of knowledge acquisition is to learn the fundamentals and the practical skills of data mining techniques, including association rule & pattern, supervised learning, unsupervised learning, semi-supervised learning, information retrieval, and web search. Furthermore, the objective also includes the related skills for surveying the latest research papers regarding data mining and big data processing, and the presentation skills for introducing the approaches and related contents presented in those papers after the survey phase.
[Methods]
In this course, the fundamentals of data mining techniques including association rule & pattern, supervised learning, unsupervised learning, semi-supervised learning, information retrieval and web search, will be introduced. Practical exercises will be conducted to apply the previous fundamental techniques to solve real problems for better understanding of those theories, technologies, and algorithms.
Subsequently, the data mining techniques focusing on web data, including social network analysis, web crawling, link analysis, structure data extraction, information integration, opinion mining, sentiment analysis, and recommendation system, will be introduced in this course as well.
Finally, the students will be asked to apply all learned data mining techniques to solve real problems, to survey the latest research papers related to big data processing that have been published at the recent five years in the proceedings of major international conferences and journals, and to give a presentation to introduce the latest techniques or approaches introduced in those papers.
[Work to be done outside of class]
All lecture notes are created in English. The students are requested to read the lecture notes that were delivered at previous lecture in advance in order to have basic understanding on the contents. In some lectures, the students need to do a presentation using PowerPoint o introduce the surveyed papers, thus please learn how to use PowerPoint in advance. For the purpose of paper survey and presentation, extra time for reviewing the lecture notes (around 4 hours), reading the lecture notes in advance (around 4 hours), intensive reading of literature, and preparing presentation materials, will be required after the lecture time.
[Textbooks]
Not require to buy any extra textbooks. Lecture notes will be delivered in each lecture.
[References]
- Bing Liu: "Web Data Mining -- Exploring Hyperlinks, Contents, and Usage Data". Second Edition, July 2011. Springer.
- Jure Leskovec, Anand Rajaraman, Jeff Ullman: "Mining of Massive Datasets". Second Edition, March 2014. Cambridge University Press. (Chapter 9)
- Proceedings of conferences: KDD/ICDM/SIGMOD/VLDB/ICDE 2018-2022.
[Grading criteria]
The grading criteria include the evaluations on the submitted final reports, the reaction of Q&A in the course, the presentation of surveyed papers, and the regular attendance. The overall grade is composed of the following percentages on each criterion.
- Regular attendance (30%)
- Presentation of surveyed papers (30%)
- Final reports (30%)
- Reaction of Q&A in the course (10%)
[Changes following student comments]
All contents introduced in this course are more at the practical perspective rather than theoretical only, and all lecture notes are prepared in English. Based on the evaluations by the students in the past years, this course is recognized as very good opportunity for learning English and practical technologies related to AI and Big Data. Therefore, this year, all lectures of this course will be instructed in the same way as previous years.
[IT equipment]
A laptop or PC with Internet connection will be used for attending online lectures (in case), paper survey and presentation in the course.
[Others]
This year, the course will be instructed in-person to increase the ration of concentration and comprehension during the lectures. It will be an option to change to online (Zoom) course when the COVID-19 situation would be getting worse. In the first lecture, the students' IT environments will be confirmed by the instructor to guarantee everyone can fairly attend the online lectures. In some cases, using Teams as an online tool will be an alternative.
授業で使用する言語Default language used in class
日本語 / Japanese
授業の概要と目的(何を学ぶか)Outline and objectives
大規模データを対象とした知識獲得を目的とする情報処理技術において,核となる方法論と処理技術の集合としたデータマイニングについて論じる.まず,知識を発見するための基本手法に関する概論を示し,続いて検索支援の技法,リンク解析等の手段によるウェブやテキストを対象としたデータ解析と知識獲得の技法,および,その周辺の話題を取り上げ解説する.
到達目標Goal
知識獲得を目的としたデータマイニングの基礎となる,相関ルールとパターン,教師付き学習と教師なし学習,部分的教師付き学習,および情報検索とウェブ検索について理解をし,応用できる能力を身に付ける.また,データマイニングの各種技法が広く応用されるビッグデータ処理に関する最先端の研究論文を調査し,内容を理解したうえで,獲得した知識を紹介できるプレゼンテーション力を身に付ける.
この授業を履修することで学部等のディプロマポリシーに示されたどの能力を習得することができるか(該当授業科目と学位授与方針に明示された学習成果との関連)Which item of the diploma policy will be obtained by taking this class?
ディプロマポリシーのうち、「DP1」「DP2」「DP3」に関連
授業で使用する言語Default language used in class
日本語 / Japanese
授業の進め方と方法Method(s)(学期の途中で変更になる場合には、別途提示します。 /If the Method(s) is changed, we will announce the details of any changes. )
まず,データマイニングの基礎となる,相関ルールとパターン,教師付きと教師なしの学習,部分的教師付き学習,および情報検索とウェブ検索について,それぞれを講義により解説する.解説した基礎知識を応用し,授業内での演習問題による理論・技術・アルゴリズムをさらに理解してもらう.
そして,ウェブデータを対象としたデータマイニング技術において,ソーシャル・ネットワーク分析,ウェブクローリング,リンク解析による構造化したデータの抽出,情報の統合,オピニオンマイニング,感情分析,および推薦システムについて,それぞれを講義により解説する.
最終的に,授業で学んだデータマイニングの各種技法を総合的に運用して,近年のトップ国際会議と国際雑誌に公表されたビッグデータ処理に関する最先端の研究論文を調査してもらい,その内容を理解したうえで,論文に述べたデータマイニング技術をプレゼンテーションにより紹介してもらう.発表内容およびプレゼンテーションに対して総合的に講評し,全体に対してフィードバックする.
アクティブラーニング(グループディスカッション、ディベート等)の実施Active learning in class (Group discussion, Debate.etc.)
あり / Yes
フィールドワーク(学外での実習等)の実施Fieldwork in class
なし / No
授業計画Schedule
授業形態/methods of teaching:対面/face to face
※各回の授業形態は予定です。教員の指示に従ってください。
第1回[対面/face to face]:データマイニングの基礎(1)
序論,相関ルール,シーケンシャルパターンを中心に解説する.
第2回[対面/face to face]:データマイニングの基礎(2)
教師付き・教師なし・部分的教師付きの学習を中心に解説する.
第3回[対面/face to face]:データマイニングの基礎(3)
情報検索とウェブ検索に関する方法論と技術を中心に解説する.
第4回[対面/face to face]:論文調査の課題発表(1)
DMに関連する国際会議・雑誌の紹介,論文紹介のまとめ方,発表資料の作り方を解説する.調査対象となる論文一覧を発表する.
第5回[対面/face to face]:ウェブマイニングの技法(1)
Web文書を収集するためのコア技術であるウェブクローリングを中心に解説する.
第6回[対面/face to face]:ウェブマイニングの技法(2)
ソーシャル・ネットワーク分析の技術を中心に解説する.
第7回[対面/face to face]:ウェブマイニングの技法(3)
リンク解析による構造化したデータの抽出技術を中心に解説する.
第8回[対面/face to face]:ウェブマイニングの技法(4)
情報の統合,オピニオンマイング,感情分析を中心に解説する.
第9回[対面/face to face]:ウェブマイニングの技法(5)
情報推薦システムに関する技術を中心に解説する.
第10回[対面/face to face]:論文調査の課題発表(2)
各自選んだ調査論文に対してプレゼンテーションにより論文の内容を紹介してもらう.発表内容に対して講評を行う.(前半)
第11回[対面/face to face]:論文調査の課題発表(3)
各自選んだ調査論文に対してプレゼンテーションにより論文の内容を紹介してもらう.発表内容に対して講評を行う.(後半)
第12回[対面/face to face]:知識獲得に関する研究動向
ビッグデータ解析,NoSQL, NewSQL, 分散情報検索などについて紹介する.
第13回[対面/face to face]:講義全体の総括
12回の講義に渡って解説した内容について全体的に総括する.
第14回[対面/face to face]:予備
各回において残った課題や,総括後に新たに出た質問に対して回答する.
授業時間外の学習(準備学習・復習・宿題等)Work to be done outside of class (preparation, etc.)
【本授業の準備・復習時間は、各4時間を標準とします。】
講義資料は英語により作成されるため,前回の授業で配布された資料を事前に読み,ある程度次回の講義内容を理解しておく必要がある.授業内では,調査した論文について PowerPointにより内容紹介のプレゼンテーションをする予定であるので,PowerPointを使えるようにしておく必要がある.また,論文調査とプレゼンのために,授業時間外において講義資料の復習,文献の精読,発表資料の作成をする必要がある.
テキスト(教科書)Textbooks
特になし.講義資料のプリントを学習支援システムにて配布する予定である.
参考書References
- Bing Liu: "Web Data Mining -- Exploring Hyperlinks, Contents, and Usage Data". Second Edition, July 2011. Springer.
- Jure Leskovec, Anand Rajaraman, Jeff Ullman: "Mining of Massive Datasets". Second Edition, March 2014. Cambridge University Press. (特にChapter 9)
- 近年の国際会議のProceedings: KDD/ICDM/SIGMOD/VLDB/ICDE 2018-2022.
成績評価の方法と基準Grading criteria
レポート,講義中の質疑応答,論文調査のプレゼンテーション,および平常点により総 合的に評価する.具体的な割合は以下の通りで構成する.
- 平常点 (30%)
- プレゼンテーション (30%)
- 最終レポート (30%)
- 質疑応答 (10%)
学生の意見等からの気づきChanges following student comments
本講義で解説する内容は,より実践的なものであり,講義資料が英語であるため,学生にとって学びの非常に良い機会だと認識した.今年度も引き続き,同形式で講義を進行する予定.
学生が準備すべき機器他Equipment student needs to prepare
オンライン講義実施の場合,および調査した論文を紹介するプレゼンテーションに必要なもの: インターネット接続可能なノートパソコン
その他の重要事項Others
今年度の講義は,授業での理解度や集中度を向上させるために、原則対面で実施する.コロナの悪化状況に応じてZoomによるオンラインの実施に切り替える可能性もある.初回の講義にて,受講生のIT環境調査を行い,調査結果に応じてTeamsなどのツール利用に切り替える可能性がある.