Step การวิเคราะห์ data บน BigData Platform
![](https://www.yod.net/wp-content/uploads/2023/01/5E4CABA3-3AA5-437A-AA3A-9C073BB4945E.png)
สวัสดีค่า .. วันนี้ จะขอพูดเรื่อง Step การวิเคราะห์ Data นะคะ โดยสิ่งที่อธิบายอันนี้ก็จะเป็นสิ่งที่เคยทำมาจากประสพการณ์ จริงค่ะ บางคนอาจจะมีวิธีอื่น ยังไงก็ลองมาแชร์ กันนะคะ
1. ระบุแหล่งข้อมูล:
กำหนดแหล่งที่มาของข้อมูลชนิดต่างๆ ที่เราต้องการวิเคราะห์ เช่น ฐานข้อมูล, log file, API ซึ่งการตั้งความถี่ของการได้ข้อมูลเมื่อข้อมูลเข้ามาจะแตกต่างกันไปตามประเภทเหล่านี้
![ตรวจสอบ ข้อมุลต้นทาง](https://www.yod.net/wp-content/uploads/2023/01/6steps2-1024x576.jpg)
2. ดึงและแปลงข้อมูล:
ใช้เครื่องมือ เช่น Apache NiFi หรือ Apache Kafka เพื่อดึงข้อมูลจากแหล่งที่มาต่างๆ แล้วจึงใช้ Apache Pig หรือ Apache Hive เพื่อแปลงข้อมูลให้อยู่ในรูปแบบที่สามารถนำไปวิเคราะห์ต่อได้ง่าย ซึ่งสำหรับ Developer ภาษาที่ใช้ในการจัดการแปลงข้อมูลหรือการทำ Cleasing สามารถใช้พวก Python
![ทำการ ดึง หรือ แปลงข้อมูล](https://www.yod.net/wp-content/uploads/2023/01/6steps3-1024x576.jpg)
3. โหลดข้อมูลลงบน Big Data Platform:
ใช้เครื่องมือ เช่น Apache Hadoop หรือ Apache Spark มาโหลดข้อมูลที่ถูกแปลงแล้วลงในระบบจัดเก็บข้อมูลแบบกระจาย เช่น HDFS หรือ Apache Cassandra
![โหลดข้อมูลเข้า Bigdata platform](https://www.yod.net/wp-content/uploads/2023/01/6steps4-1024x576.jpg)
4. ดำเนินการวิเคราะห์:
ใช้เครื่องมือ เช่น Apache Hive หรือ Apache Spark SQL ในการทำ SQL-like queries กับข้อมูลและการแยกข้อมูลเชิงลึก กรณีที่เป็น Google Cloud Platform สามารถใช้ Google BigQuery และนอกจากนี้ยังสามารถใช้ machine learning library อย่าง Apache Mahout หรือ MLlib ในการวิเคราะห์ข้อมูลขั้นสูง
![ทำการวิเคราะห์](https://www.yod.net/wp-content/uploads/2023/01/6steps5-1024x576.jpg)
5. สร้างภาพของผลลัพธ์:
ใช้เครื่องมือสร้างภาพ เช่น Apache Superset, Tableau, PowerBI หรือโปรแกรม BI อื่นๆ ที่นิยมในตลาดในการนำเสนอข้อมูลเชิงลึกอย่างชัดเจนและรัดกุม ตัว BI โดยทั่วไปสามารถแสดงข้อมูลในรูปแบบ graph ต่างๆ หรือ สร้างมุมมองหลายมิติ บางตัวสามารถทำ Realtime Analytic ได้
![นำมาแสดงผลบน BI](https://www.yod.net/wp-content/uploads/2023/01/6steps6-1024x576.jpg)
6. เฝ้าสังเกตและบำรุงรักษา:
สังเกตการณ์ประสิทธิภาพของระบบและทำการปรับปรุงหากจำเป็น หมั่นตรวจสอบข้อมูลในด้านความถูกต้องและความสมบูรณ์ และอัปเดตระบบให้สอดคล้องกัน ระบบเมื่อทำเสร็จแล้วจะเป็นหน้าที่ของทีมดูแล โดยอาจมีหลายปัจจัยให้ดูแล ไม่ว่าจะเป็นการตรวจสอบ log, การ clean log หรือการตรวจสอบทรัพยากรบน Cloud ในกรณีที่พัฒนาระบบเป็น on cloud
![คอย monitor](https://www.yod.net/wp-content/uploads/2023/01/6steps7-1024x576.jpg)