หลักสูตร Data Mining with RapidMiner Studio 6 (Basic and Intermediate)
รหัสหลักสูตร: 21189
สัมมนานี้ผ่านไปเรียบร้อยแล้ว
(ถ้ามีจัด ท่านจะได้สิทธิ์ก่อน)
โลกในยุคปัจจุบันได้ก้าวเข้าไปสู่ยุคที่เรียกว่า “Big Data” หรือ “ข้อมูลอภิมหาศาล” เนื่องจากในแต่ละวันมีข้อมูลเกิดขึ้นมากมาย อาทิเช่น ข้อมูลสมาชิกของ Facebook ข้อมูลการซื้อสินค้าจากในซุปเปอร์มาร์เกตต่างๆ และเพื่อให้เกิดประโยชน์มากที่สุดเราจำเป็นต้องนำข้อมูลอภิมหาศาลเหล่านี้มาทำการวิเคราะห์ (analyze) ซึ่งเทคนิคหนึ่งที่ได้รับการนิยมอย่างสูงในปัจจุบัน คือ เทคนิค Data Mining ซึ่งเป็นเทคนิคที่ค้นหาความสัมพันธ์ในข้อมูล เช่น ถ้าลูกค้าซื้อเบียร์แล้วลูกค้าจะซื้อผ้าอ้อมร่วมไปด้วย หรือถ้าเรากด Like หน้า Facebook page เราจะเห็นว่า Facebook มีระบบแนะนำ page อื่นๆ ที่เกี่ยวข้องมาให้ด้วย หรือ การสร้างโมเดลเพื่อทำนายสิ่งที่จะเกิดขึ้นในอนาคต เช่น ทำนายยอดขายในไตรมาสถัดไป หรือ การทำนายว่าพนักงานคนไหนที่จะลาออกจากบริษัทในช่วง 3 เดือนข้างหน้า ตัวอย่างเหล่านี้ล้วนเป็นผลมาจากการวิเคราะห์ข้อมูลทางด้าน Data Mining
การวิเคราะห์ข้อมูลด้วย Data Mining นี้กำลังเป็นที่นิยมไปทั่วโลกด้วยแรงขับเคลื่อนอย่างหนึ่งคือ การมีซอฟต์แวร์ที่ช่วยให้ทำการวิเคราะห์ได้ง่ายขึ้น แต่ซอฟต์แวร์ส่วนใหญ่จะเป็นซอฟต์แวร์เชิงพาณิชย์ (commercial software) เช่น SAS Enterprise Miner หรือ IBM Intelligent Miner ทว่าการลงทุนซื้อซอฟต์แวร์เชิงธุรกิจเหล่านี้มาใช้งานอาจจะไม่คุ้มค่าในการลงทุนสำหรับผู้ประกอบการวิสาหกิจขนาดกลางและขนาดย่อม (SMEs) หรืออาจารย์ นักวิจัย และ นักศึกษาระดับปริญญาโทและเอก ในมหาวิทยาลัยต่างๆ ดังนั้นวิธีการหนึ่งที่จะทำให้เราสามารถวิเคราะห์ข้อมูลเหล่านี้ได้คือการใช้ open source software ที่สามารถดาวน์โหลดมาใช้งานได้โดยไม่เสียค่าใช้จ่าย (ฟรี !!!) เช่น ซอฟต์แวร์ Weka ผมคลุกคลีกับ Weka มาเป็นเวลาหลายปี เคยเขียนคู่มือการใช้งาน Weka Explorer ลงในนิตยสาร OpenSource2Day สร้างหลักสูตรการอบรมการใช้งาน Weka Explorer และอบรมการใช้งานซอฟต์แวร์ตัวนี้มาเป็นจำนวนเกือบยี่สิบรุ่น แม้ว่าซอฟต์แวร์นี้จะใช้งานได้ง่ายสำหรับผู้เริ่มต้นและสะดวกที่จะนำไปใช้ในการพัฒนา Web Application แต่ในหลายๆ ครั้งผมมักจะพบข้อจำกัดหรือความยากในการแสดงผลจากซอฟต์แวร์ตัวนี้ ดังนั้นผมจึงหันมาสนใจซอฟต์แวร์ตัวอื่นที่สามารถทดแทนหรือดีกว่าซอฟต์แวร์ Weka Explorer และผมก็พบกับซอฟต์แวร์ RapidMiner Studio 6 ซึ่งเป็นซอฟต์แวร์ทาง Data Mining ที่ได้รับการโหวตว่ามีผู้ใช้งานมากที่สุดจากเว็บไซต์ KDnuggets.com เมื่อปี 2013 ในหลักสูตรนี้ผมจะแนะนำให้คุณรู้จักการวิเคราะห์ข้อมูลด้วยเทคนิค Data Mining ตั้งแต่ระดับต้นจน (basic) จนถึงระดับกลาง (intermediate) ด้วยการใช้ซอฟต์แวร์ RapidMiner Studio 6 ซึ่งเป็นเวอร์ชันล่าสุด ถ้าคุณยังลังเลว่าคุณควรจะมาเข้าร่วมอบรมหลักสูตรนี้กับผมหรือไม่ ผมขอถาม 8 คำถามสั้นๆ ดังนี้ครับ
- สนใจการวิเคราะห์ข้อมูลด้วย Data Mining แต่ไม่รู้จะเริ่มยังไงดี
- อยากรู้ว่าลูกค้าซื้อสินค้าอะไรเป็นส่วนใหญ่
- อยากเข้าใจพฤติกรรมการบริโภทของลูกค้า
- อยากหยั่งรู้อนาคต (บางส่วน)
- อยากทำงานวิจัยทางด้าน text mining
- อยากทำงานวิจัยทางด้าน image processing
- ไม่ชอบการเขียนโปรแกรมแต่อยากวิเคราะห์ข้อมูลที่ซับซ้อนได้
- เคยเข้าร่วมการอบรมการใช้งาน Weka Explorer มาแล้วและอยาก update ความรู้ทาง Data Mining ใหม่ๆ ด้วยซอฟต์แวร์ใหม่ๆ
ถ้าคุณตอบว่า “ใช่” ในคำถามข้อใดข้อหนึ่ง ผมขอแนะนำว่าคุณควรจะมาเข้าร่วมอบรมกับผมครับ และคุณจะรู้ว่าทำไมผมถึงเปลี่ยนใจจาก Weka Explorer มาตกหลุมรักซอฟต์แวร์ที่ชื่อว่า RapidMiner Studio 6 ครับ ^^
วันที่ 1
- แนะนำการวิเคราะห์ข้อมูลด้วยเทคนิค Data Mining และการใช้ประโยชน์ในงานวิจัย
- แนะนำกระบวนการ CRISP-DM เบื้องต้นสำหรับการวิเคราะห์ข้อมูล
- แนะนำส่วนต่างๆ ของซอฟต์แวร์ RapidMiner Studio 6
- การนำข้อมูลไฟล์ Excel, CSV เข้ามาใช้ใน RapidMiner Studio 6
- ลักษณะของแอตทริบิวต์ (attribute) ต่างๆ ในชุดข้อมูล
- การเขียนไฟล์ให้อยู่ในรูปแบบของ Excel และ CSV
- การแสดงข้อมูลในกราฟแบบต่างๆ เช่น scatter plot, time series
- การค้นหา Outlier ซึ่งเป็นข้อมูลที่แตกต่างจากข้อมูลอื่นๆ
- การค้นหาข้อมูลที่ผิดพลาด (missing value) และแทนที่ด้วยค่าที่กำหนดเองหรือค่าทางสถิติ
- การแปลงข้อมูลด้วยเทคนิค discretization แบบกำหนดช่วงเองหรือแบบอัตโนมัติ
- การลดจำนวนข้อมูลด้วยการ sampling แบบต่างๆ
- การเลือกแอตทริบิวต์เพื่อใช้ในการวิเคราะห์ข้อมูล
- แนะนำการหากฏความสัมพันธ์ (association rules) และการประยุกต์ใช้งานด้านต่างๆ
- แนะนำเทคนิคการหากฏความสัมพันธ์ด้วยเทคนิค Apriori และ FP Growth
- การแปลงข้อมูลจากฐานข้อมูล relation database ให้เป็นฐานข้อมูล transaction database
- การหากฏความสัมพันธ์ด้วยเทคนิค FP Growth ซึ่งเป็นวิธีที่มีประสิทธิภาพมากที่สุด
- Workshop การหากฏความสัมพันธ์จากข้อมูลการซื้อสินค้าจำนวนมากกว่า 100,000 transactions ด้วย RapidMiner Studio 6
- แนะนำการแบ่งกลุ่มข้อมูล (clustering) และการประยุกต์ใช้งานด้านต่างๆ
- แนะนำตัววัดประสิทธิภาพของการแบ่งกลุ่มข้อมูล
- แนะนำการแบ่งกลุ่มข้อมูลด้วยเทคนิค K-Means และ DBScan
- Workshop การแบ่งกลุ่มข้อมูลทางด้านการศึกษาและการแพทย์ด้วย RapidMiner Studio 6
วันที่ 2
- แนะนำการจำแนกประเภทข้อมูล (classification)
- การวัดประสิทธิภาพของการจำแนกประเภทข้อมูล
- แนะนำเทคนิค Linear Regression และการประยุกต์ใช้งาน
- การใช้งาน Linear Regression ใน RapidMiner Studio 6
- แนะนำเทคนิค Naive Bayes และการประยุกต์ใช้งาน
- การใช้งาน Naive Bayes ใน RapidMiner Studio 6
- แนะนำเทคนิค Decision Tree และการประยุกต์ใช้งาน
- การใช้งาน Decision Tree ใน RapidMiner Studio 6
- แนะนำเทคนิค K-Nearest Neighbours (KNN) และการประยุกต์ใช้งาน
- การใช้งาน KNN ใน RapidMiner Studio 6
- แนะนำเทคนิค Neural Networks และการประยุกต์ใช้งาน
- การใช้งาน Neural Networks ใน RapidMiner Studio 6
- แนะนำเทคนิค Support Vector Machines (SVM) และการประยุกต์ใช้งาน
- การใช้งาน SVM ใน RapidMiner Studio 6
- Workshop การจำแนกประเภทข้อมูลในงานด้านต่างๆ
- ด้านธุรกิจ
- ด้านการศึกษา
- ด้านการแพทย์
- การคัดเลือกแอตทริบิวต์ (attribute selection) และการประยุกต์ใช้ในการจำแนกประเภทข้อมูล
- Workshop การคัดเลือกแอตทริบิวต์และการจำแนกประเภทข้อมูลในงานด้านต่างๆ
วันที่ 3
- การเปรียบเทียบประสิทธิภาพของโมเดลจากเทคนิค classification ต่างๆ และ t-test
- แนะนำเทคนิคการหาวิธี classification ที่เหมาะสมสำหรับข้อมูลแต่ละชุด (meta-learning)
- แนะนำการทำ Text Mining ด้วย RapidMiner Studio 6
- Workshop การจำแนกข้อความที่เป็น spam จาก SMS
- Workshop การแบ่งกลุ่มข้อมูลจากข้อความรีวิว (Review)
- Workshop การหากฏความสัมพันธ์จากข้อความรีวิว
- แนะนำการทำ Image Mining ด้วย RapidMiner Studio 6
- Workshop การจำแนกรูปภาพออกเป็นประเภทต่างๆ
รายละเอียดเพิ่มเติมดูได้ที่ http://dataminingtrend.com/2014/training/rapidminer-training/