[IQ] Data Quality in data warehouseing
-
Data Quality in data warehouseing
– ตัวอย่างโปรเจ็คเกี่ยวกับการทำ Data Quality ของสถาบันการเงิน โดยเป็นโปรเจ็ค data warehouse
– มีปัญหา Data Quality ในการทำ data warehouse มากมายเนื่องจากต้องนำข้อมูลจากหลาย source
– เวลาแก้ปัญหา เราจะต้องมองถึงการวางแผนในการจัดการปัญหา โดยมีกลยุทธ์ 2 รูปแบบ
1. Re-active : ตรวจพบปัญหาก็แก้
2. Pro-active: ป้องกันการเกิดปัญหา
– การบริหารจัดการ DQ แบบ Pro-active จะมีทุกระดับ
– นอกจากนี้ยังมีเรื่องของ responsibility ว่าการบริหารข้อมูลเกี่ยวกับใครบ้าง, ใครเป็นคนตรวจสอบ,ใครเป็นคนดูแล ต้องมีคนที่มาดำเนินการ
-
Two key tasks at the operational level
- การ Planning– เกี่ยวกับการหาความต้องการของผู้ใช้ และความคาดหวังว่าต้องการอย่างไร แค่ไหน- ก็ทำการรวบรวมความต้องการของผู้ใช้มา- เมื่อรวบรวมความต้องการมาแล้ว อาจจะมีหลายด้าน ต้องมีการจัดลำดับความสำคัญ และแบ่งหมวดหมู่
– ต้องติดต่อกับผู้ใ้ช้
- Quality control– ทำการควบคุมคุณภาพ เฝ้าระวัง วัดว่าคุณภาพด้านที่เราสนใจเป็นอย่างไร เกินขอบเขตที่ตั้งไว้รึเปล่า- ทำยังไงให้ข้อมูลตรงตามสเปคที่กำหนด , ได้คุณภาพตามที่ต้องการ- ต้องไปตรวจสอบที่ฐานข้อมูล
-
Research Methodology
Case Study research
– เลือกหน่วยงานหรือองค์กรที่สนใจ โดยอาจจะเลือกหลายเคสมาเปรียบเทียบกันก็ได้
– ไม่ได้เน้นเรื่องเทคนิคอย่างเดียว แต่เน้นไปเรื่องขององค์กร, การกำหนดบทบาทด้วย
-
Initial situation
– ตอนเริ่มต้นทีเข้าไป พบว่าระบบต่างๆ เป็นระบบที่แยกออกจากกัน เนื่องจากว่าสมัยก่อนซอฟต์แวร์ที่ซื้อมานั้นจะมีข้อจำกัดและขอบเขตของแต่ละ อัน แล้วก็ไม่มีการเชื่อมโยงกันด้วย
– เวลาสร้างwarehouse จะทำให้มีความซับซ้อนมาก เนื่องจากมีมาตรฐาน หน่วยนับ หรือเรื่องต่างๆ ที่ต่างกัน
– ข้อมูลมาจากหน่วยงานหลัก ดูดึงมาเปลี่ยนแปลงแล้วเก็บใน central
-
Central control program
– ทำหน้าที่เหมือนกับ warehouse ทั่วไปคือ extract transform
-
DQ check
– ตรวจสอบอย่างง่ายๆ เช่นมีค่าซ้ำกันมาไหม, รูปแบบที่ถูกต้อง, ข้อมูลที่หายไป
– ถ้าข้อมูลมาจากหลายแหล่งก็ต้องดูว่าข้อมูลซ้ำซ้อนไหมด้วย
-
Discussions with Project managers in different departments
– เริ่มต้นเข้าไปก็ทำการคุยกับ project manager ของแต่ละแผนก
– พบว่ามีปัญหาเรื่องข้อมูล จึงมีความต้องการในการปรับปรุงคุณภาพข้อมูล แล้วเข้าไปวิเคราะห์รายงานของแต่ละแผนกด้วย ที่พบก็คือ
1. รายงานยังไม่ clear ตีความได้หลายแบบ
2. ให้นิยามไม่ตรงกันของแต่ละรายงาน
3. ฟอร์แมตไม่ตรงกัน
4. ข้อมูลไม่ครบ
-
data-quality problems and DW project
– คุณภาพของข้อมูลเปลี่ยนไปตามเวลา
– เมื่อคุณภาพข้อมูลไม่น่าเชื่อถือ ก็ทำให้โปรเจคการทำ data warehouse ไม่ถูกใ้ช้
-
data-user perspective : มุมมองของผู้ใช้
– อยากจะได้ว่าคุณภาพข้อมูลนี้ใ้ช้ได้รึเปล่า อยากให้มีการใช้สีแสดงถึงคุณภาพของข้อมูล แต่ระบบไม่สามารถแยกให้ได้
– มี technical support ในการบอกถึงคุณภาพของข้อมูล แต่ไม่ได้ระบุหรืออธิบายให้ผู้ใช้เข้าใจได้
-
Data-quality improvement project : การปรับปรุง
– มีความต้องการว่าคนในบริษัทต้องการให้มีโปรเจคการปรับปรุงคุณภาพข้อมูล
-
DQ discussion
– คำถาม
1. อะไรที่มีความเสี่ยงสูงหรือมีเป็นปัญหาสำคัญของคุณภาพข้อมูลในกลุ่มของคุณ
2. ช่วยอธิบายปัญหาโดยยกตัวอย่างหน่อย
3. คุณมีไอเดียหรือคำแนะนำอะไรในการแก้ไขปัญหานี้
– การที่ได้ข้อมูลจากองค์กรโดยตรงจะทำให้ได้ข้อมูลที่ชัดเจนมากขึ้น
-
Feedback
– ต้องเอาข้อมูลทีสอบถามมาแล้วมาทำการวิเคราะห์ แล้วให้ feedback กลับไป ว่าได้ข้อสรุปสิ่งที่ไปคุยมาเป็นอย่างไร
– แล้วถามความคิดเห็นกลับมาด้วยเกี่ยวกับ feedback และข้อสรุปของคนในองค์กร
-
ปัญหาหลักแบ่งออกเป็น
1. data model
Interpretability
– การให้นิยามของข้อมูลไม่สอดคล้องกัน
– แนะนำให้ทำ standardization ให้ข้อมูลมีมาตรฐานเดียวกัน
Usability
– ข้อมูลที่มีประโยชน์ไม่อยู่ในที่ๆต้องการ
– แนะนำให้สอบถามผู้ใช้บ่อยๆ
2. data value
Inconsistent data values – มีข้อมูลไม่สอดคล้องกัน
Timeliness – ข้อมูลไม่มีการอัพเดต, แก้ปัญหาโดยมีการเฝ้าดูตลอดว่าการดึงข้อมูลมีความสอดคล้องกัน
Accessibility – เกิดจากดึงข้อมูลมาไม่ได้, แก้ปัญหาโดยเชคบ่อยๆ ว่าข้อมูลสามารถใช้อยู่ได้ไหม
The Project
– ใช้ TQM มาร่วมด้วย
1. กำหนด set of quality rules และสร้าง prototype
2. จัดการในเรื่องของกระบวนการและคนที่รับผิดชอบ
3. ทำการขยายขอบเขตของโปรเจคไปยัง data mart ต่างๆ และมีการให้ data statement กับผู้ใช้ ว่ารายงานฉบับนี้มีคุณภาพข้อมูลเป็นอย่างไร
4. ขยายไปยังระดับของกลยุทธ์ด้วย
-
A conceptual Architecture of Matadata management system
– เก็บ rule โดยเราต้องรวบรวม rule มาให้ได้มาที่สุดและทำการอัพเดตด้วย ทำให้มีการวัดคุณภาพตามกำหนด
– มีการแจ้งให้ผู้ดูแลระบบรู้ว่าเกิดอะไรขึ้น
– จะช่วยให้คนมาบริหารจัดการข้อมูลได้ดีขึ้น
-
Metadata Rules
– เวลาไปดึงข้อมูลมาจากแหล่งข้อมูลก็็ต้องดูว่าครบไหม, ได้อย่างที่อยากจะได้รึเปล่า
-
4 key findings : สิ่งที่เค้าค้นพบ
1. กลยุทธ์ที่ชัดเจน สำคัญมากในการบริหารจัดการข้อมูล
2. การ ที่ทำงานให้มันเสร็จทันเวลาก็สำคัญ : ถ้าใช้เวลานานจะไม่ได้รับการสนับสนุนจากผู้บริหาร : การใช้ rule-based ทำให้ได้ผลลัพธ์ที่เร็ว
3. การกำหนดกระบวนการทำงานไม่ใช่เรื่องง่าย : การที่เค้ามีเครื่องมีมาช่วยเจ้าหน้าที่จะทำให้การทำงานราบรื่นขึ้น
4. การทำงานจะเอาแต่คนทางเทคนิคอย่างเดียวไม่ได้ต้องเอาคนฝ่าย business เข้ามาร่วมด้วยตั้งแต่ต้น : จะทำให้เกิดความร่วมมือกัน
Leave a comment