[IQ] Information Quality Frameworks

admin
on July 24, 2009
Comments
- Information Quality

[IQ] Information Quality Frameworks

ในการวัดคุณภาพของข้อมูลนั้นยังมีความยุ่งยากในหลายๆส่วนอยู่ด้วยกัน จึงมีการนำ Framework มาช่วย ซึ่งในเอนทรี่นี้เป็นการอธิบายรายละเอียดของ Information Quality Frameworks, อธิบายสิ่งที่ผลกระทบต่อคุณภาพข้อมูล, กระบวณการต่างๆ ในการประเมินค่าของคุณภาพข้อมูล

Nuamann & Rolker Framework
– กรุ๊ป dimension ต่างๆ ตามวิธีการที่จะวัดคุณภาพของข้อมูล
– ระบุว่ามี 3 source ในการวัด IQ

ความยุ่งยากในการวัด

1. IQ Criteria : ส่วนใหญ่แล้วจะเป็น subjective nature แล้วแ่ต่มุมมองของคนใช้งาน ไม่สามารถวัดแบบอัตโนมัติได้
2. ในการรวมกลุ่มจะมองในมุมของ Information source แหล่งข้อมูล ซึ่งจะเป็นอิสระ โดยอาจจะเปลี่ยนแปลงได้ เช่น เมื่อเราถึงข้อมูลมาใช้ เจ้าของข้อมูลอาจจะเปลี่ยนแปลงข้อมูลได้ ซึ่งก็ส่งผลต่อการใช้งาน
3. เมื่อข้อมูลมาจำนวนมากขึ้นเรื่อยๆ ในการวัดผลของข้อมูลจะยุ่งยากขึ้นไปด้วย ทำให้ต้องใช้ทั้งคน งบประมาณ และเวลาในการวัด ในการวัดข้อมูลในหลายๆ dimension จึงต้องใช้การสุ่มตัวอย่าง โดยเฉพาะแบบ Subjective

การแบ่งประเภทตามวิธีกา่รวัดข้อมูล

1. semantic-oriented : แบ่งตามความหมายของแต่ละ criteria
2. processing-oriented : เกี่ยวกับการใช้งานในแต่ละ phase ของการผลิตข้อมูล
3. goal-oriented : เกี่ยวกับวัตถุประสงค์ของการใช้ข้อมูล

แฟกเตอร์ที่มีผลต่อ IQ

1. User : เป็นแหล่งข้อมูลในการที่จะบอกว่า IQ เป็นยังไง เช่น Understandability แต่การเลือกถามผู้ใช้ก็เป็นเรื่องที่ต้องคิดว่าจะถามใคร และบาง dimension ก็ใช้ไม่ได้
2. Information source : ฐานข้อมูลที่ให้ข้อมูลกับเราก็เป็นแหล่งที่จะให้ IQ กับเรา โดยอาจจะเขียนโปรแกรมเช็คข้อมูลได้ เช่น Completeness ซึ่งถ้าเป็นระบบที่มีการรักษาความปลอดภัยสูงๆ ก็อาจจะทำได้ยาก
3. Process : สามารถวัด IQ ได้จากกระบวณการของการเข้าถึงหรือเรียกค้นข้อมูล โดยดูว่าโปรเซสนั้นให้ความพึงพอใจกับผู้ใช้ไหม เช่น response time, accessibility

Three IQ Classes in Nuamann & Rolker Framework(2000) : ที่มาของข้อมูล

1. Subject criteria : ข้อมูลที่ได้จากผู้ใช้ เช่น understandability, Believability, Relevancy, Reputation, Value-Added
2. Object criteria : การวัดผลที่ฐานข้อมูล ต้องมีการเขียนโปรแกรมทำการวิเคราะห์และเช็คข้อมูลในฐานข้อมูล เช่น completeness, Timeless, Security
3. Process criteria : ผลจากโปรเซสว่าการตอบรับช้า-เร็วยังไง เช่น Accuracy, Consistent, Latency, Response Time, Avaliability

การที่จะวัดคุณภาพข้อมูลในด้าน Precision VS Practicality

1. Precision : ต้องดูว่าเรานิยาม criteria ชัดเจนไหม โดยจะต้องมีการนิยามให้ชัดเจนมากๆ โดยเฉพาะการถามผู้ใช้

– ปัญหา ของ Precision :
Subject-criteria : คะแนนของกลุ่ม่นี้จะถูกต้องเฉพาะแต่ละคนเท่านั้น แต่บอกทั้งกลุ่มได้ยาก เพราะว่าแต่ละคนให้คะแนนไม่เหมือนกัน ซึ่งก็ขึ้นกับเวลาที่ให้ผู้ใช้ในการทำด้วย
Object criteria : ถ้าเราสามารถเข้าไปตรวจสอบทุกฟิลด์ได้ก็จะมีความแม่นยำมากขึ้น แต่ว่าก็มีโอกาสน้อยจึงต้องทำ sampling ซึ่งทำให้เกิด error ขึ้นได้ ซึ่งแก้ไขได้โดยใช้วิธีการทางสถิติในการสุ่มตัวอย่างข้อมูล
Process criteria : ถ้าเป็นวิธีนี้ จะมี precision ต่ำเนื่องจากโปรเซสจะต้องเชคในขณะที่ดึงข้อมูลซึ่งในเวลาต่างกันก็จะได้ผล ต่างกัน ทำให้ไม่สามารถตัดสินได้ว่าเป็นค่าที่ถูกต้อง

2. Practicality : ปฏิบัติได้จริงรึเปล่า, แก้ไขง่ายไหม, ใช้ง่าย หรือถ้ามีการเปลี่ยนแปลงก็ควรจะทำได้ง่าย
– ปัญหา ของ Practicality :
Subject-criteria : ผู้ใช้อาจจะไม่มีเวลามาประเมินบ่อยๆ หรือใช้เวลามากๆในการประเมิน ดังนั้นเวลาที่ทดสอบถ้าต้องไปนั่งถามทุกคนก็ไม่ practical ดังนั้นเวลาที่จะออกแบบสอบถาม ก็อาจจะอธิบายแบบสอบถามได้ถ้าหากอยู่ในห้องร่วมกัน ซึ่งต้องพยายามให้แบบสอบถามกระชับและตอบง่ายที่สุดโดยจะต้องไม่มีคำกำกวม ด้วยคะแนนที่ได้อาจจะมีการ publish และสามารถให้ผู้ใช้ประเมินใหม่ได้ด้วย
Object criteria : คำว่า practical หมายถึงไ่ม่ใช้เวลามากเกินไป หรือไม่แพงเกินไป เช่นต้องปิดระบบ หรือต้องจ้างโปรแกรมเมอร์เขียนโปรแกรม
Process criteria : กรณีที่ต้องการเชค response time ก็ต้องลอง query ดู ซึ่งก็ต้องดูว่าต้องใช้เวลาเยอะไหม และต้องใช้ค่าใช้จ่ายเยอะรึเปล่า

การที่จะวัดคุณภาพข้อมูลในด้าน Score Units VS Ranges : หน่วยวัดและขอบเขต

Subject-criteria : สามารถทำได้ยาก ซึ่งส่วนใหญ่จะออกมาเป็นสเกล แต่จะเป็นเปอร์เซนต์นั้นยาก ไม่ค่อยมีหน่วยนับโดยจะให้เป็นเกรด
Object criteria : บางครั้งเราใช้ผู้เชี่ยวชาญในการตรวจข้อมูล เช่น price
Process criteria : ปกติแล้วจะไม่ยากในการกำหนด Unit หรือ Range เช่น response time ก็อาจจะวัดเป็นตัวเลขไ้ด้เป็นวินาที

Assessing Subject Criteria

+ ต้องถามจากผู้ใช้ และเมื่อได้คะแนนมาแล้วควรมีการเก็บข้อมูลได้ เพื่ออาจจะใช้ในการเผยแพร่หรือนำไปปรับปรุง
+ ประเด็นในการวัด จะต้องมีการนิยาม IQ ออกมาให้ชัดเจน : โดยการนิยามจะต้องสั้นและไม่กำกวม โดยจะต้อง specific สำหรับการใช้งานที่ต้องการ
+ ถ้าเราไม่ได้นิยามที่ชัดเจน อาจจะเิกิดปัญหาขึ้นได้ ซึ่งทำงานให้คะแนนที่ออกมามีแนวโน้มไปทางเดียวกัน โดยอาจจะมีหลายๆคำถามเพื่อให้สะท้อนของสิ่งที่ต้องการจะวัด
+ ต้องบอก range ให้ชัดเจน
+ ควรจะมีตัวอย่างด้วย เช่น ข้อมูลที่ดี และไม่ดีนั้นเป็นยังไง
+ อาจจะมีค่า default ให้สำหรับผู้ใช้ที่ไม่สามารถให้คะแนนได้

Method of Assessing Subject Criteria

1. user experience : ผู้ใช้ที่จะมาตอบคำถามต้องเคยใช้งานข้อมูล
2. user sampling : เราไม่ได้ถามทุกคน โดยอาจจะให้ผู้ใช้ที่จะไปถามนั้นต้องเคยใช้ข้อมูลและสินค้า ซึ่งควรจะทำเป็นประจำ เนื่องจากข้อมูลมีการเปลี่ยนแปลงต่อเนื่อง
โดยระบบอาจจะมีการเตือนด้วยว่ามีการเปลี่ยนแปลงข้อมูลมากน้อยแค่ไหน
3. continuous user assessment : ควรจะมีการทำแบบต่อเนื่อง ซึ่งจะใช้เวลาและค่าใช้จ่ายเยอะ แต่ reliability ก็ต้องการสอบถามเป็นระยะเพื่อสะท้อนออกมาจริงๆ
โดยจะต้องวิเคราะห์และตรวจสอบข้อมูลทุกอย่างที่ได้จากระบบ แล้วให้ผู้ใช้บอกว่าดีไม่ดียังไง ซึ่งมันยากและเสียค่าใช้จ่ายเยอะ
ซึ่งจะเลือกใช้วิธีนี้เมื่อ คะแนนของข้อมูลไม่พอที่จะให้เราบอกคุณภาพของข้อมูล หรือกรณีไม่สามารถสุ่มเลือกนำเอาข้อมูลมาตรวจสอบได้

Method of Assessing Object-Criteria

+ สามารถเขียนโปรแกรมขึ้นมาเพื่อตรวจสอบได้ แต่บางครั้งก็ต้องใช้ผู้เชี่ยวชาญด้วย
+ Price (ราคาข้อมูล) และ support (ความรู้สึกของผู้ใช้ว่าได้รับกา่ร support) ต้องถามผู้เชี่ยวชาญเพราะไม่สามารถเขียนโปรแกรมเช็คได้
+ Parsing คือต้องมานั่งไล่วิเคราะห์ทีละ record
content parsing : พิจารณาในส่วนของเนื้อข้อมูล และการเข้าถึงข้อมูล เช่น security ของข้อมูล, Documentation or user support
+ Sampling : โดยหลักๆ จะเขียนโปรแกรม แต่บางครั้งถ้ามีผู้เชี่ยวชาญมาตรวจสอบจึงต้องใช้ sampling
+ Expert input : ถ้ามีข้อมูลที่เฉพาะเข้ามาต้องใช้ผู้เชี่ยวชาญ เช่น objectivity, verifiability
+ Continuous assessment : บางครั้งต้องมีการเช็คอย่างต่อเนื่อง เช่นการเช็ค reliability
+ ข้อมูลทางด้านสถิติก็มีส่วนช่วยในการตรวจสอบ
+ Cleansing techniques : accuracy โดยจะนับจำนวน error ที่เกิดขึ้น ซึ่งบางครั้งอาจจะมาจากโปรเซส

Method of Assessing Process-Criteria

+ ควรมีการเช็คความผิดพลาดของข้อมูลจากโปรเซส
+ Continuous assessment : วัดเป็นระยะๆ ต่อเนื่องไป โดยใช้ิวิธีเฉลี่ยหรือการถ่วงน้ำหนัก
+ Parsing ไปวิเคราะห์ โดย Structural parsing ดูโครงสร้างของข้อมูล เช่น ตาราง กราฟ

ความมั่นใจของวิธีการในการวัดข้อมูล

+ ในส่วนของคะแนนมีความน่าเชื่อถือแค่ไหน ก็ต้องดูจากวิธีที่ใช้, วันที่วัด
+ คะแนนล้าสมัยเร็วมาก ดังนั้นการวัดล่าสุดจะมีความน่าเชื่อถือมากกว่า
+ วิธีการวัดก็มีความน่าเชื่อถือแตกต่างกันไป
Subject Criteria : น่า เชื่อถือน้อยที่สุด เพราะมีความไม่แน่นอนเช่น คนทำไม่ได้ตั้งใจให้คะแนนผิดเพี้ยนไปจากความเป็นจริง หรือตั้งใจให้คะแนนดีหรือแย่เกินไป ดังนั้นต้องเลือกคนและจำนวนที่ำทำการตรวจสอบ
Object criteria : มีความน่าเชื่อถือสูงสุด เนื่องจากวัดจากข้อมูลจริง แต่ถ้ามีการต้องใช้ผู้เชี่ยวชาญอาจจะมีควาไม่แน่นอนขึ้น
Process criteria : มีความน่าเชื่อถือน้อยได้ แต่ก็สามารถแก้ไขได้โดยการคิวรี่โปรเซสบ่อยๆ ดังนั้นถ้าเราตรวจสอบคิวรี่มากเท่าไหร่ก็จะมีความน่าเชื่อถือมากเท่านั้น