[IQ] Data Quality in data warehouseing

  • Data Quality in data warehouseing

– ตัวอย่างโปรเจ็คเกี่ยวกับการทำ Data Quality ของสถาบันการเงิน โดยเป็นโปรเจ็ค data warehouse

– มีปัญหา Data Quality ในการทำ data warehouse มากมายเนื่องจากต้องนำข้อมูลจากหลาย source

– เวลาแก้ปัญหา เราจะต้องมองถึงการวางแผนในการจัดการปัญหา โดยมีกลยุทธ์ 2 รูปแบบ

1. Re-active : ตรวจพบปัญหาก็แก้

2. Pro-active: ป้องกันการเกิดปัญหา

– การบริหารจัดการ DQ แบบ Pro-active จะมีทุกระดับ

– นอกจากนี้ยังมีเรื่องของ responsibility ว่าการบริหารข้อมูลเกี่ยวกับใครบ้าง, ใครเป็นคนตรวจสอบ,ใครเป็นคนดูแล ต้องมีคนที่มาดำเนินการ

  • Two key tasks at the operational level

  1. การ Planning– เกี่ยวกับการหาความต้องการของผู้ใช้ และความคาดหวังว่าต้องการอย่างไร แค่ไหน- ก็ทำการรวบรวมความต้องการของผู้ใช้มา- เมื่อรวบรวมความต้องการมาแล้ว อาจจะมีหลายด้าน ต้องมีการจัดลำดับความสำคัญ และแบ่งหมวดหมู่

    – ต้องติดต่อกับผู้ใ้ช้

  2. Quality control– ทำการควบคุมคุณภาพ เฝ้าระวัง วัดว่าคุณภาพด้านที่เราสนใจเป็นอย่างไร เกินขอบเขตที่ตั้งไว้รึเปล่า- ทำยังไงให้ข้อมูลตรงตามสเปคที่กำหนด , ได้คุณภาพตามที่ต้องการ- ต้องไปตรวจสอบที่ฐานข้อมูล
  • Research Methodology

Case Study research

– เลือกหน่วยงานหรือองค์กรที่สนใจ โดยอาจจะเลือกหลายเคสมาเปรียบเทียบกันก็ได้

– ไม่ได้เน้นเรื่องเทคนิคอย่างเดียว แต่เน้นไปเรื่องขององค์กร, การกำหนดบทบาทด้วย

  • Initial situation

– ตอนเริ่มต้นทีเข้าไป พบว่าระบบต่างๆ เป็นระบบที่แยกออกจากกัน เนื่องจากว่าสมัยก่อนซอฟต์แวร์ที่ซื้อมานั้นจะมีข้อจำกัดและขอบเขตของแต่ละ อัน แล้วก็ไม่มีการเชื่อมโยงกันด้วย

– เวลาสร้างwarehouse จะทำให้มีความซับซ้อนมาก เนื่องจากมีมาตรฐาน หน่วยนับ หรือเรื่องต่างๆ ที่ต่างกัน
– ข้อมูลมาจากหน่วยงานหลัก ดูดึงมาเปลี่ยนแปลงแล้วเก็บใน central

  • Central control program

– ทำหน้าที่เหมือนกับ warehouse ทั่วไปคือ extract transform

  • DQ check

– ตรวจสอบอย่างง่ายๆ เช่นมีค่าซ้ำกันมาไหม, รูปแบบที่ถูกต้อง, ข้อมูลที่หายไป
– ถ้าข้อมูลมาจากหลายแหล่งก็ต้องดูว่าข้อมูลซ้ำซ้อนไหมด้วย

  • Discussions with Project managers in different departments

– เริ่มต้นเข้าไปก็ทำการคุยกับ project manager ของแต่ละแผนก

– พบว่ามีปัญหาเรื่องข้อมูล จึงมีความต้องการในการปรับปรุงคุณภาพข้อมูล แล้วเข้าไปวิเคราะห์รายงานของแต่ละแผนกด้วย ที่พบก็คือ

1. รายงานยังไม่ clear ตีความได้หลายแบบ

2. ให้นิยามไม่ตรงกันของแต่ละรายงาน

3. ฟอร์แมตไม่ตรงกัน

4. ข้อมูลไม่ครบ

  • data-quality problems and DW project

– คุณภาพของข้อมูลเปลี่ยนไปตามเวลา

– เมื่อคุณภาพข้อมูลไม่น่าเชื่อถือ ก็ทำให้โปรเจคการทำ data warehouse ไม่ถูกใ้ช้

  • data-user perspective :  มุมมองของผู้ใช้

– อยากจะได้ว่าคุณภาพข้อมูลนี้ใ้ช้ได้รึเปล่า อยากให้มีการใช้สีแสดงถึงคุณภาพของข้อมูล แต่ระบบไม่สามารถแยกให้ได้

– มี technical support ในการบอกถึงคุณภาพของข้อมูล แต่ไม่ได้ระบุหรืออธิบายให้ผู้ใช้เข้าใจได้

  • Data-quality improvement project : การปรับปรุง

– มีความต้องการว่าคนในบริษัทต้องการให้มีโปรเจคการปรับปรุงคุณภาพข้อมูล

  • DQ discussion

– คำถาม

1. อะไรที่มีความเสี่ยงสูงหรือมีเป็นปัญหาสำคัญของคุณภาพข้อมูลในกลุ่มของคุณ

2. ช่วยอธิบายปัญหาโดยยกตัวอย่างหน่อย

3. คุณมีไอเดียหรือคำแนะนำอะไรในการแก้ไขปัญหานี้

– การที่ได้ข้อมูลจากองค์กรโดยตรงจะทำให้ได้ข้อมูลที่ชัดเจนมากขึ้น

  • Feedback

– ต้องเอาข้อมูลทีสอบถามมาแล้วมาทำการวิเคราะห์ แล้วให้ feedback กลับไป ว่าได้ข้อสรุปสิ่งที่ไปคุยมาเป็นอย่างไร

– แล้วถามความคิดเห็นกลับมาด้วยเกี่ยวกับ feedback และข้อสรุปของคนในองค์กร

  • ปัญหาหลักแบ่งออกเป็น

1. data model

Interpretability

– การให้นิยามของข้อมูลไม่สอดคล้องกัน

– แนะนำให้ทำ standardization ให้ข้อมูลมีมาตรฐานเดียวกัน

Usability

– ข้อมูลที่มีประโยชน์ไม่อยู่ในที่ๆต้องการ

– แนะนำให้สอบถามผู้ใช้บ่อยๆ

2. data value

Inconsistent data values – มีข้อมูลไม่สอดคล้องกัน

Timeliness – ข้อมูลไม่มีการอัพเดต, แก้ปัญหาโดยมีการเฝ้าดูตลอดว่าการดึงข้อมูลมีความสอดคล้องกัน

Accessibility – เกิดจากดึงข้อมูลมาไม่ได้, แก้ปัญหาโดยเชคบ่อยๆ ว่าข้อมูลสามารถใช้อยู่ได้ไหม

The Project

– ใช้ TQM มาร่วมด้วย

1. กำหนด set of quality rules และสร้าง prototype
2. จัดการในเรื่องของกระบวนการและคนที่รับผิดชอบ
3. ทำการขยายขอบเขตของโปรเจคไปยัง data mart ต่างๆ และมีการให้ data statement กับผู้ใช้ ว่ารายงานฉบับนี้มีคุณภาพข้อมูลเป็นอย่างไร
4. ขยายไปยังระดับของกลยุทธ์ด้วย

  • A conceptual Architecture of  Matadata management system

– เก็บ rule โดยเราต้องรวบรวม rule มาให้ได้มาที่สุดและทำการอัพเดตด้วย ทำให้มีการวัดคุณภาพตามกำหนด

– มีการแจ้งให้ผู้ดูแลระบบรู้ว่าเกิดอะไรขึ้น

– จะช่วยให้คนมาบริหารจัดการข้อมูลได้ดีขึ้น

  • Metadata Rules

– เวลาไปดึงข้อมูลมาจากแหล่งข้อมูลก็็ต้องดูว่าครบไหม, ได้อย่างที่อยากจะได้รึเปล่า

  • 4 key findings : สิ่งที่เค้าค้นพบ

1. กลยุทธ์ที่ชัดเจน สำคัญมากในการบริหารจัดการข้อมูล

2. การ ที่ทำงานให้มันเสร็จทันเวลาก็สำคัญ : ถ้าใช้เวลานานจะไม่ได้รับการสนับสนุนจากผู้บริหาร : การใช้ rule-based ทำให้ได้ผลลัพธ์ที่เร็ว

3. การกำหนดกระบวนการทำงานไม่ใช่เรื่องง่าย : การที่เค้ามีเครื่องมีมาช่วยเจ้าหน้าที่จะทำให้การทำงานราบรื่นขึ้น

4. การทำงานจะเอาแต่คนทางเทคนิคอย่างเดียวไม่ได้ต้องเอาคนฝ่าย business เข้ามาร่วมด้วยตั้งแต่ต้น : จะทำให้เกิดความร่วมมือกัน

Leave a comment