Step การวิเคราะห์ data บน BigData Platform
สวัสดีค่า .. วันนี้ จะขอพูดเรื่อง Step การวิเคราะห์ Data นะคะ โดยสิ่งที่อธิบายอันนี้ก็จะเป็นสิ่งที่เคยทำมาจากประสพการณ์ จริงค่ะ บางคนอาจจะมีวิธีอื่น ยังไงก็ลองมาแชร์ กันนะคะ
1. ระบุแหล่งข้อมูล:
กำหนดแหล่งที่มาของข้อมูลชนิดต่างๆ ที่เราต้องการวิเคราะห์ เช่น ฐานข้อมูล, log file, API ซึ่งการตั้งความถี่ของการได้ข้อมูลเมื่อข้อมูลเข้ามาจะแตกต่างกันไปตามประเภทเหล่านี้
2. ดึงและแปลงข้อมูล:
ใช้เครื่องมือ เช่น Apache NiFi หรือ Apache Kafka เพื่อดึงข้อมูลจากแหล่งที่มาต่างๆ แล้วจึงใช้ Apache Pig หรือ Apache Hive เพื่อแปลงข้อมูลให้อยู่ในรูปแบบที่สามารถนำไปวิเคราะห์ต่อได้ง่าย ซึ่งสำหรับ Developer ภาษาที่ใช้ในการจัดการแปลงข้อมูลหรือการทำ Cleasing สามารถใช้พวก Python
3. โหลดข้อมูลลงบน Big Data Platform:
ใช้เครื่องมือ เช่น Apache Hadoop หรือ Apache Spark มาโหลดข้อมูลที่ถูกแปลงแล้วลงในระบบจัดเก็บข้อมูลแบบกระจาย เช่น HDFS หรือ Apache Cassandra
4. ดำเนินการวิเคราะห์:
ใช้เครื่องมือ เช่น Apache Hive หรือ Apache Spark SQL ในการทำ SQL-like queries กับข้อมูลและการแยกข้อมูลเชิงลึก กรณีที่เป็น Google Cloud Platform สามารถใช้ Google BigQuery และนอกจากนี้ยังสามารถใช้ machine learning library อย่าง Apache Mahout หรือ MLlib ในการวิเคราะห์ข้อมูลขั้นสูง
5. สร้างภาพของผลลัพธ์:
ใช้เครื่องมือสร้างภาพ เช่น Apache Superset, Tableau, PowerBI หรือโปรแกรม BI อื่นๆ ที่นิยมในตลาดในการนำเสนอข้อมูลเชิงลึกอย่างชัดเจนและรัดกุม ตัว BI โดยทั่วไปสามารถแสดงข้อมูลในรูปแบบ graph ต่างๆ หรือ สร้างมุมมองหลายมิติ บางตัวสามารถทำ Realtime Analytic ได้
6. เฝ้าสังเกตและบำรุงรักษา:
สังเกตการณ์ประสิทธิภาพของระบบและทำการปรับปรุงหากจำเป็น หมั่นตรวจสอบข้อมูลในด้านความถูกต้องและความสมบูรณ์ และอัปเดตระบบให้สอดคล้องกัน ระบบเมื่อทำเสร็จแล้วจะเป็นหน้าที่ของทีมดูแล โดยอาจมีหลายปัจจัยให้ดูแล ไม่ว่าจะเป็นการตรวจสอบ log, การ clean log หรือการตรวจสอบทรัพยากรบน Cloud ในกรณีที่พัฒนาระบบเป็น on cloud