[IQ]Executing DQ Project : #3 Assess Data Quality

Executing DQ Project : #3 Assess Data Quality

  • Step 3 : Assess Data Quality

Step_3_Assess_Data_Quality.jpg
– ขั้นตอนที่ผ่านมาเป็นการเตรียมความพร้อมในการทำโปรเจ็ค
– วันนี้มองในเขิงของโปรเจ็คก่อนว่าจะวัดคุณภาพข้อมูลจะวัดอย่างไร
– สามารถบอกได้ว่าปัญหาคุณภาพข้อมูลมีอะไรบ้างเพื่อที่จะเป็นข้อมูลนำไปใช้ในการแก้ปัญหา
– ซึ่งยังไม่ถึงขั้นตอนการปรังปรุงแค่หาสาเหตุว่าปัญหาเกิดจากอะไร
– ได้ input จาก ขั้นตอนที่ 1,2
– ในขั้นตอนนี้จะพิจารณาเทคนิคที่เรียกว่า Data Profiting เป็นเครื่องมือในการวิเคราะห์ว่าข้อมูลมีการเสียหายอย่างไร
– ผลของขั้นตอนนี้คือ ข้อมูลมีปัญหาตรงไหน อย่างไร
– ได้ recommentation ว่าควรจะทำอะไรต่อไป อย่างไร

  • 3.1  Assess Data specifications

– ดูในขั้นตอนที่ว่ามี data standard รึยัง
– model เป็นอย่างไร
– มี business rule ไหม, กำหนดกฏเกณฑ์อะไรในการทำงานรึเปล่า
– คุณภาพของ Data specifications

  1. Data Standard
    – ดูเรื่อง table, field name การตั้งชื่อเป็นมาตรฐานรึเปล่า, การใช้ชื่อย่อ
    – มีการกำหนด guide ในการป้อนข้อมูลเพื่อให้อยู่ในมาตรฐานเดียวกัน
  2. Data model
    – ดูเรื่องของ ER ว่าไม่เก็บข้อมูลซ้ำซ้อน
  3. Business Rule
    – ข้อกำหนดสมบูรณ์ไหม ถูกต้องไหม
  4. Meta Data
    – เป็น data definition มีรึเปล่าในเอกสาร
  5. Reference data
    – หมายถึงรหัสอ้างอิงต่าง

– การวัดคุณภาพ Data specifications

  1. พิจารณาว่าจะตรวจสอบอะไรบ้าง
  2. วางแผนการตรวจสอบ
    – Data Spec บางอย่างอาจจะไม่มีก็ได้
    – ถ้าไม่มีก็ต้องหาคนที่รู้มาสร้าง Data Spec
  3. ทำการ evaluate ดูว่าข้อมูลที่เราได้มาได้มาจากไหน, มีการอ้างถึงมาตรฐานอะไรเช่น ISO ควรจะเป็นไปในทิศทางเดียวกันในองค์กร
    – หาข้อมูลมาเปรียบเทียบกันว่าเหมือนมาตรฐาน หรือโดยรวมไหม
    – พิจารณาผู้ที่จะประิเมินคุณภาพ
  4. ทำการพัฒนาและดำเนินการกระบวนการสำหรับ evaluating คุณภาพของเอกสาร
  5. วิเคราะห์ผลของ Data specifications และการวัดคุณภาพของเอกสาร
  6. ตามผลของกระบวนการของการรวบรวมและสร้างData specifications
  7. รายงานผลและเสนอข้อแนะนำ

– Assessment Documentation Quality

  1. Background : ชื่อ คำอธิบายเอกสาร
  2. Assessment ผลการประเมิน : มี spec รึเปล่า, ถ้ามีแล้วใช้ได้ง่ายรึเปล่า, มีการอัพเดตไหม, เอกสารที่ทำเข้าใจง่ายไหม, เป็นรายละเอียดเกี่ยวกับเอกสารที่รวบรวมมาว่ามีคุณภาพรึเปล่า
  • 3.2 Assess Data Integrity Fundamentals

– หมายถึงการวัดคุณภาพข้อมูลในด้านว่ามีไหน, เป็นรายละเอียดพื้นฐานของข้อมูล
– ใช้วิธีการ Data Profiling มาวัด เป็น analytical technique สำหรับการตรวจสอบคุณภาพโครงสร้างข้อมูล
– Data Profiling Tools : อาจจะใช้ซอฟต์แวร์, เขียน SQL
– Data Profiling เราจะดูทีฐานข้อมูลว่ามีข้อมูลอะไรบ้าง สมบูรณ์ไหม สมบูรณ์เท่าไหร่ ซึ่งมีประโยชน์ในการที่ได้ content ของมัน, การอ้างอิงหรือความสัมพันธ์ของตาราง
– ช่วยให้เวลาที่จะเอาไปทำ DW เอา profile ไปใช้ได้
– Column Profiling เช่น วิเคราะห์แต่ละคอลัมน์ของ record, ความสมบูรณ์ของข้อมูล, เก็บว่าคอลัมน์นั้น unique กี่%, เอาเรื่อง Business มาประกอบด้วย ไม่ใช่ดูเรื่อง database อย่างเดียว, ซึ่งการทำอย่างนี้เรียกว่า domain analysis
– Profiling within a Table or File เช่น ค้นหาความสัมพันธ์ระหว่างคอลัมน์ในตารางหรือไฟล์, หาปัญหาข้อมูล, อาจจะมีการเชื่อมโยงกันระหว่างตาราง
– Profiling across Table or File เช่น เปรียบเทียบข้อมูล, ดูความซ้ำซ้อนกันไหม
– การวัดคุณภาพด้านอื่นๆ เช่น Accuracy Duplication

Leave a comment