Machine Learning - Data Distribution
เรียนเขียนโปรเเกรมง่ายๆกับ Expert Programming Tutor ในบท Macchine Learnning - Data Distribution
การแจกแจงข้อมูล
ก่อนหน้านี้ในบทTutorial เราได้ทำงานกับข้อมูลจำนวนน้อยมากในตัวอย่างของเราเพียงเพื่อทำความเข้าใจแนวคิดที่แตกต่าง
ในโลกแห่งความเป็นจริงชุดข้อมูลมีขนาดใหญ่กว่ามาก แต่อาจเป็นเรื่องยากที่จะรวบรวมข้อมูลโลกแห่งความจริงอย่างน้อยในช่วงเริ่มต้นของโปรเจ็ค
เราจะรับชุดค่าข้อมูลขนาดใหญ่ได้อย่างไร
การสร้างชุดข้อมูลขนาดใหญ่สำหรับการทดสอบเราใช้โมดูล Python NumPy ซึ่งมาพร้อมกับวิธีการมากมายในการสร้างชุดข้อมูลแบบสุ่มทุกขนาด
ตัวอย่าง
สร้างอาร์เรย์ที่มี 250 สุ่มเดาระหว่าง 0 และ 5
import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)
|
ผลลัพธ์
[0.17946572 2.32219161 0.18934418 1.82162521 1.59162147 0.54635267
2.44499023 2.34568246 0.57350099 4.55370988 1.06062319 1.27923664
0.385706 0.87962984 0.68588784 4.4162117 0.24180221 0.2093519
2.95518983 4.58848847 0.97791905 0.02621364 2.63128696 3.50801208
4.5377773 1.32584789 2.92509257 1.30882817 2.96282421 4.82504129
4.82823323 0.14981561 1.71283778 1.46287599 2.04795432 4.86712256
2.57991716 2.02938383 1.40714847 3.08935754 4.88406483 3.90742459
3.66097583 3.71369692 2.93289684 4.83191128 2.77667798 4.93069696
1.62304667 0.87760554 2.70527059 1.44847975 1.09857957 4.59412576
1.95394356 2.00140027 4.94018383 2.03265004 0.35025816 4.20108624
4.66743431 0.11120526 3.35859297 2.03318906 1.29014243 1.9655744
1.40202471 2.7598193 2.69650886 3.13747564 1.7780115 0.33804047
4.95974949 1.28741501 3.24814622 3.04697963 1.01406724 2.48639059
2.49032162 0.0823857 0.62740879 0.99449206 1.39554869 3.87099639
2.37139558 0.23952776 1.00843479 4.55360346 4.94720853 0.84871001
1.6398664 0.97468032 0.90700492 1.17272503 4.27084102 1.38948562
2.34181502 4.75568963 3.52776339 1.93441554 4.87709235 3.74530643
3.9975462 2.82720806 3.74524148 0.01975848 4.33253149 3.54387409
4.48281077 4.28892963 4.94326465 3.26352283 0.34243638 3.01846409
1.7587625 0.24776364 4.47579695 3.4040576 2.7463264 0.18288662
3.74013185 4.84744046 0.2339886 4.95259157 0.83779691 2.6556716
1.47302649 0.01861863 0.61084778 4.19358525 2.73145098 3.29335442
1.4507033 4.09868195 3.01892235 4.75958955 2.94028417 2.83680078
0.95605695 4.28062833 0.0388657 2.55384113 3.27518035 0.09401306
3.49635162 3.4425639 2.49294885 3.84333305 2.98660606 0.04491348
3.56437768 3.92588322 2.57606741 3.82999141 0.17751132 3.49126215
2.34229898 1.65846507 1.31955771 2.55094569 3.80440622 4.2313968
2.15136105 3.81496107 1.00921623 0.0498501 4.01822449 2.38020749
3.92743216 3.40007576 0.17719759 1.80779101 3.70382939 0.51672768
2.57786934 1.01109495 0.21992335 2.68410475 4.94191733 4.99364591
0.26092025 1.20219249 2.01377648 3.6080657 2.47450976 4.26451446
4.58835036 3.78577692 1.14126629 3.89625688 1.22922731 0.42438031
2.2622816 1.4510637 4.37661456 1.10899445 4.28833687 3.94039913
0.59618106 2.91973711 1.6511646 1.91974711 0.5274802 4.29063391
2.04030104 1.00498261 4.2899824 2.20825705 1.89396499 3.69340518
3.62867045 2.20934233 1.81181686 1.73302459 2.16947781 1.68942217
1.00544988 0.5599015 4.78472944 1.49927966 2.27891342 0.97507184
2.36096282 0.25083606 3.68638314 0.21005797 0.26854432 0.49555296
2.3667063 0.93851272 2.20363126 4.16682109 3.34394461 3.08082574
4.09514521 3.01205365 1.40616774 3.33079878 0.47628818 2.34098687
1.39445805 2.15242036 3.67514924 3.8718004 1.8595215 3.82621163
4.49271774 3.41728958 3.9089966 2.8857063 ]
|
histogram
เพื่อให้เห็นภาพชุดข้อมูลเราสามารถวาดฮิสโตแกรมด้วยข้อมูลที่เรารวบรวมเราจะใช้โมดูล Python Matplotlib เพื่อวาดฮิสโตแกรม
ตัวอย่าง
วาดฮิสโตแกรม
import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()
|
ผลลัพธ์
ฮิสโทแกรมเเบบอธิบาย
เราใช้อาร์เรย์จากตัวอย่างด้านบนเพื่อวาดฮิสโตแกรมที่มี 5 บาร์
- แถบแรกแสดงจำนวนค่าในอาร์เรย์อยู่ระหว่าง 0 ถึง 1
- แถบที่สองแสดงจำนวนค่าระหว่าง 1 ถึง 2 เป็นต้น
ซึ่งให้ผลลัพธ์นี้กับเรา
52 ค่าอยู่ระหว่าง 0 ถึง 1
48 ค่าอยู่ระหว่าง 1 ถึง 2
49 ค่าอยู่ระหว่าง 2 ถึง 3
51 ค่าอยู่ระหว่าง 3 ถึง 4
50 ค่าอยู่ระหว่าง 4 ถึง 5
หมายเหตุ: ค่าอาร์เรย์เป็นตัวเลขสุ่มและจะไม่แสดงผลลัพธ์ที่เหมือนกันในคอมพิวเตอร์ของนักเรียน
การแจกเเจงข้อมูลขนาดใหญ่
อาร์เรย์ที่มีค่า 250 ค่าไม่ถือว่าใหญ่มาก แต่ตอนนี้นักเรียนรู้วิธีสร้างชุดค่าแบบสุ่มและด้วยการเปลี่ยนพารามิเตอร์นักเรียนสามารถสร้างชุดข้อมูลที่มีขนาดใหญ่เท่าที่นักเรียนต้องการ
ตัวอย่าง
สร้างอาร์เรย์ที่มีตัวเลขสุ่ม 100000 รายการและแสดงโดยใช้ฮิสโตแกรมที่มี 100 บาร์
import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()
|
ผลลัพธ์
แปลจากhttps://www.w3schools.com/python/python_ml_data_distribution.asp
บทความนี้อาจจะมีที่ผิด กรุณาตรวจสอบก่อนใช้
หากมีข้อผิดพลาด/ต้องการพูดคุยเพิ่มเติมเกี่ยวกับบทความนี้ กรุณาแจ้งที่
http://m.me/Expert.Programming.Tutor
ไม่อยากอ่าน Tutorial อยากมาเรียนเลยทำอย่างไร?
หรือติดต่อ
085-350-7540 (DTAC)
084-88-00-255 (AIS)
026-111-618
หรือทาง EMAIL: NTPRINTF@GMAIL.COM
แผนที่ ที่ตั้งของอาคารของเรา