การเรียนรู้ Data Science ไม่เพียงแต่ประกอบไปด้วยการทำความเข้าใจทฤษฎีและหลักการต่าง ๆ เท่านั้น แต่ยังต้องมีการฝึกฝนที่เน้นทักษะการวิเคราะห์ข้อมูลจากชีวิตจริงด้วย การมี Portfolio ของผลงานในมือมีความสำคัญยิ่งในการเสนอตัวเองให้กับนายจ้าง ซึ่งข้อมูลชุดต่างๆหรือที่เรียกว่า "Datasets" นั้นสามารถช่วยให้ผู้เรียนสามารถประยุกต์ใช้ทักษะที่ได้เรียนพร้อมทั้งเพิ่มประสบการณ์ที่จำเป็น
ในบทความนี้ เราจะพูดถึง 5 datasets ที่สามารถใช้ฝึกฝนทักษะในการทำ Data Science ได้ และยังสามารถสร้างผลงานเพื่อรวบรวมไว้ใน Portfolio ของคุณ:
1. Iris Dataset: ชุดข้อมูลง่ายๆ ที่ใช้กันอย่างแพร่หลายสำหรับผู้เริ่มต้นในวงการ Data Science มาด้วย 4 features ทางด้านพฤกษศาสตร์ (sepal length, sepal width, petal length, petal width) และ target class สำหรับการระบุสายพันธุ์ของดอกไอริส 3 ชนิด เป็นชุดข้อมูลที่เหมาะสำหรับการฝึกฝนและการทำความเข้าใจเรื่องการจำแนกประเภท (classification).
from sklearn import datasets
# Load Iris Dataset
iris = datasets.load_iris()
X = iris.data
y = iris.target
# An example of a simple analysis would be to visualize the data
import matplotlib.pyplot as plt
plt.scatter(X[:, 0], X[:, 1], c=y)
plt.show()
2. MNIST Handwritten Digit Dataset: ชุดข้อมูลนี้ประกอบด้วยภาพของเลขที่เขียนด้วยมือ ที่ถูกใช้เป็นมาตรฐานในการทดสอบและฝึกฝนเทคนิคเดน่าของเครื่อง (machine learning techniques) เหมาะสำหรับฝึกและทดสอบการวิเคราะห์ภาพ (image classification).
from keras.datasets import mnist
# Load MNIST Dataset
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
# An example of a simple preprocessing would be to normalize the image data
train_images = train_images / 255.0
test_images = test_images / 255.0
# Visualize one of the images
import matplotlib.pyplot as plt
plt.imshow(train_images[0], cmap=plt.cm.binary)
plt.show()
3. Titanic Dataset: ชุดข้อมูลนี้เป็นที่นิยมใช้ในการฝึกฝนเรื่องการทำนายผลักธุ์ (survival analysis) หรือการจำแนกประเภท ด้วยข้อมูลผู้โดยสารของเรือไททานิก สามารถใช้ประวัติการเดินทางและอื่นๆในการทำนายว่าผู้โดยสารคนนั้นจะรอดชีวิตหรือไม่.
4. Boston Housing Dataset: สำหรับข้อมูลนี้ เหมาะกับการฝึกทำนายราคาของบ้าน (regression problems) โดยใช้ features ต่างๆ เช่น สภาพแวดล้อม เศรษฐศาสตร์ และ สถิติของเมือง.
5. Kaggle’s Datasets: แพลตฟอร์ม Kaggle เสนอชุดข้อมูลนับหมื่นๆ ชุดสำหรับการแข่งขันที่คัดเลือกมาแล้วว่าเหมาะสมและมีคุณภาพ เหมาะอย่างยิ่งสำหรับฝึกฝนทักษะการจัดการข้อมูลขนาดใหญ่ (big data) และการสร้างโมเดลการทำนายที่ซับซ้อน.
อย่างที่เห็น การมีประสบการณ์กับ datasets ที่ต่างกัน ไม่เพียงช่วยให้คุณได้ฝึกฝนทักษะในด้าน Data Science เท่านั้น แต่ยังช่วยสร้างและแสดงผลงานของคุณให้กับนายจ้างเห็นถึงความสามารถของคุณได้อีกด้วย การที่สามารถนำเสนอโปรเจคที่คุณจัดการข้อมูลที่ซับซ้อน และแสดงทักษะการวิเคราะห์ข้อมูลอย่างมีเหตุผลสามารถเพิ่มโอกาสในการได้รับงานหรือความก้าวหน้าในอาชีพของคุณ ณ สถานศึกษาที่เน้นทักษะทางด้าน Data Science เช่น EPT คุณสามารถลงมือปฏิบัติจากข้อมูลสมมุติสู่ชุมชนวิชาการและทำงานไปพร้อมกันได้ ท้ายที่สุดนี้ คุณภาพของ portfolio ที่สร้างจากชุดข้อมูลเหล่านี้จะสามารถเป็นเครื่องพิสูจน์ว่าคุณพร้อมลงมือทำงานในโลกของ Data Science ได้อย่างแท้จริง.
หมายเหตุ: ข้อมูลในบทความนี้อาจจะผิด โปรดตรวจสอบความถูกต้องของบทความอีกครั้งหนึ่ง บทความนี้ไม่สามารถนำไปใช้อ้างอิงใด ๆ ได้ ทาง EPT ไม่ขอยืนยันความถูกต้อง และไม่ขอรับผิดชอบต่อความเสียหายใดที่เกิดจากบทความชุดนี้ทั้งทางทรัพย์สิน ร่างกาย หรือจิตใจของผู้อ่านและผู้เกี่ยวข้อง
หากเจอข้อผิดพลาด หรือต้องการพูดคุย ติดต่อได้ที่ https://m.me/expert.Programming.Tutor/
หากมีข้อผิดพลาด/ต้องการพูดคุยเพิ่มเติมเกี่ยวกับบทความนี้ กรุณาแจ้งที่ http://m.me/Expert.Programming.Tutor
085-350-7540 (DTAC)
084-88-00-255 (AIS)
026-111-618
หรือทาง EMAIL: NTPRINTF@GMAIL.COM