[IQ]Executing DQ Project : #3 Assess Data Quality
Executing DQ Project : #3 Assess Data Quality
-
Step 3 : Assess Data Quality
– ขั้นตอนที่ผ่านมาเป็นการเตรียมความพร้อมในการทำโปรเจ็ค
– วันนี้มองในเขิงของโปรเจ็คก่อนว่าจะวัดคุณภาพข้อมูลจะวัดอย่างไร
– สามารถบอกได้ว่าปัญหาคุณภาพข้อมูลมีอะไรบ้างเพื่อที่จะเป็นข้อมูลนำไปใช้ในการแก้ปัญหา
– ซึ่งยังไม่ถึงขั้นตอนการปรังปรุงแค่หาสาเหตุว่าปัญหาเกิดจากอะไร
– ได้ input จาก ขั้นตอนที่ 1,2
– ในขั้นตอนนี้จะพิจารณาเทคนิคที่เรียกว่า Data Profiting เป็นเครื่องมือในการวิเคราะห์ว่าข้อมูลมีการเสียหายอย่างไร
– ผลของขั้นตอนนี้คือ ข้อมูลมีปัญหาตรงไหน อย่างไร
– ได้ recommentation ว่าควรจะทำอะไรต่อไป อย่างไร
- 3.1 Assess Data specifications
– ดูในขั้นตอนที่ว่ามี data standard รึยัง
– model เป็นอย่างไร
– มี business rule ไหม, กำหนดกฏเกณฑ์อะไรในการทำงานรึเปล่า
– คุณภาพของ Data specifications
- Data Standard
– ดูเรื่อง table, field name การตั้งชื่อเป็นมาตรฐานรึเปล่า, การใช้ชื่อย่อ
– มีการกำหนด guide ในการป้อนข้อมูลเพื่อให้อยู่ในมาตรฐานเดียวกัน - Data model
– ดูเรื่องของ ER ว่าไม่เก็บข้อมูลซ้ำซ้อน - Business Rule
– ข้อกำหนดสมบูรณ์ไหม ถูกต้องไหม - Meta Data
– เป็น data definition มีรึเปล่าในเอกสาร - Reference data
– หมายถึงรหัสอ้างอิงต่าง
– การวัดคุณภาพ Data specifications
- พิจารณาว่าจะตรวจสอบอะไรบ้าง
- วางแผนการตรวจสอบ
– Data Spec บางอย่างอาจจะไม่มีก็ได้
– ถ้าไม่มีก็ต้องหาคนที่รู้มาสร้าง Data Spec - ทำการ evaluate ดูว่าข้อมูลที่เราได้มาได้มาจากไหน, มีการอ้างถึงมาตรฐานอะไรเช่น ISO ควรจะเป็นไปในทิศทางเดียวกันในองค์กร
– หาข้อมูลมาเปรียบเทียบกันว่าเหมือนมาตรฐาน หรือโดยรวมไหม
– พิจารณาผู้ที่จะประิเมินคุณภาพ - ทำการพัฒนาและดำเนินการกระบวนการสำหรับ evaluating คุณภาพของเอกสาร
- วิเคราะห์ผลของ Data specifications และการวัดคุณภาพของเอกสาร
- ตามผลของกระบวนการของการรวบรวมและสร้างData specifications
- รายงานผลและเสนอข้อแนะนำ
– Assessment Documentation Quality
- Background : ชื่อ คำอธิบายเอกสาร
- Assessment ผลการประเมิน : มี spec รึเปล่า, ถ้ามีแล้วใช้ได้ง่ายรึเปล่า, มีการอัพเดตไหม, เอกสารที่ทำเข้าใจง่ายไหม, เป็นรายละเอียดเกี่ยวกับเอกสารที่รวบรวมมาว่ามีคุณภาพรึเปล่า
- 3.2 Assess Data Integrity Fundamentals
– หมายถึงการวัดคุณภาพข้อมูลในด้านว่ามีไหน, เป็นรายละเอียดพื้นฐานของข้อมูล
– ใช้วิธีการ Data Profiling มาวัด เป็น analytical technique สำหรับการตรวจสอบคุณภาพโครงสร้างข้อมูล
– Data Profiling Tools : อาจจะใช้ซอฟต์แวร์, เขียน SQL
– Data Profiling เราจะดูทีฐานข้อมูลว่ามีข้อมูลอะไรบ้าง สมบูรณ์ไหม สมบูรณ์เท่าไหร่ ซึ่งมีประโยชน์ในการที่ได้ content ของมัน, การอ้างอิงหรือความสัมพันธ์ของตาราง
– ช่วยให้เวลาที่จะเอาไปทำ DW เอา profile ไปใช้ได้
– Column Profiling เช่น วิเคราะห์แต่ละคอลัมน์ของ record, ความสมบูรณ์ของข้อมูล, เก็บว่าคอลัมน์นั้น unique กี่%, เอาเรื่อง Business มาประกอบด้วย ไม่ใช่ดูเรื่อง database อย่างเดียว, ซึ่งการทำอย่างนี้เรียกว่า domain analysis
– Profiling within a Table or File เช่น ค้นหาความสัมพันธ์ระหว่างคอลัมน์ในตารางหรือไฟล์, หาปัญหาข้อมูล, อาจจะมีการเชื่อมโยงกันระหว่างตาราง
– Profiling across Table or File เช่น เปรียบเทียบข้อมูล, ดูความซ้ำซ้อนกันไหม
– การวัดคุณภาพด้านอื่นๆ เช่น Accuracy Duplication
Leave a comment