[IQ] Introduction to Information Quality
[IQ] Introduction to Information Quality
หลังจากที่เรียนวิชา Information Quality มาครึ่งเทอมก็ต้องมาสรุปเนื้อหากันหน่อย ซึี่งในเอนทรี่นี้ก็มีการอธิบายถึงการนิยามของ Information Quality หรือคุณภาพของข้อมูล, อธิบายมุมมองต่างๆ ที่มาใช้ในการพิจารณาคุณภาพของข้อมูล ซึ่งก็ประกอบไปด้วย 16 Dimension ด้วยกัน รวมไปถึงอธิบายถึงวิธีการวัดคุณภาพของข้อมูลในตอนท้ายอีกด้วย
Information Quality Definition Approach
– นิยามมันหลากหลายโดยมี 3 Approach หลักๆ
1. Theoretical Approach
– Fox et al.(1994)
– นิยามจาก Database theory เช่น Entity Relationship model
– ในฐานข้อมูลส่วนใหญ่จะเป็น entity โดยมี relationship ระหว่างกัน
– Accuracy : ความถูกต้องของข้อมูล เช่นวันเกิด
– Currentness : ความถูกต้อง ณ เวลาใดเวลาหนึ่งเช่น เงินเดือน
– Completeness : ข้อมูลเข้าไปครบถ้วนตามจำนวน entity ครบไหม อาจจะมองได้ว่า ตอนที่จับ data มาใส่ model มี attribute ครบไหม
– Consistent :ความสอดคล้องข้อมูล ขึ้นอยู่กับกฏเกณฑ์ที่กำหนด เช่น ห้ามเป็น Null
2. Researcher’s Experience
– คุณภาพของข้อมูลมันมีอยู๋แม้ว่าข้อมูลนั้นยังไม่ถูกเอาไปเก็บในฐานข้อมูล
– คุณภาพแบ่งเป็น
1. data value เช่น ความถูกต้อง
2. data modeling เช่น เวลาออกแบบมาแล้วครบถ้วนไหม บอกความสัมพันธ์ถูกต้องไหม
3. data representation on physical storage อยู่ที่ว่าข้อมูลที่คีย์เข้าไปมันตรงกับโลกความเป็นจริงไหม
3. User Perception (User Quality)
– บิดาคุณภาพข้อมูล (Juran) ที่กำหนดทฤษฏีการควบคุมคุณภาพ โดยเอา concept มาจากญี่ปุ่น
– มีทีมนักวิจับ wang มีการคิด dimension ว่าทำยังไงถึงจะมอง IQ ครบถ้วนสมบูรณ์ มีการใช้ทฤษฏีคุณภาพ
– ทำการวิจัยจาก information customer จากนักเรียนของมหาลัย
– โดยได้ข้อมูลมาจากหลาย dimension ที่เป็นผลจาก Information systems เช่น, data values, information representation, context of use, system productivity, system quality
– ตัวอย่างการนิยาม
Consistent Representation : หมายถึงเรื่องของ format, ข้อมูลอยู่ใน Format ที่อยู่ในรูปแบบเดียวกันไหม
Free-of-Error, Accuracy : เป็นเรื่องของความถูกต้อง
Relevancy : เกี่ยวข้องกับงานที่ทำ โดยมุมมองของพนักงานแต่ละคนอาจจะแตกต่างกัน
Timeless : ข้อมูลมีการ update
– วิธีการSurvey ของทีม wang
1. ทำการถามผู้ใช้งานที่อยู่ในองค์กร 25 คน และ 112 MBA : ถามว่าคุณคิดอะไรได้จากเรื่องของ IQ จากความคิดของคุณ, มีการแสดง 32 attribute ที่คัดมาแล้วว่าอยากจะเพิ่มเข้าไปไหม ในที่สุดได้ 179 IQ attributes
2. เอา 179 attributes ให้ศิษย์เก่าของ MBA 1500 คนมาจัดลำดับ : ทำการส่งจดหมายไปถาม ซึ่งจะมีเพียง 20% ของการตอบรับที่ใช้งานได้ ก็ได้ 118 IQ attributes เรียงลำดับความสำคัญมา
3. ใช้ Factor analysis ในการ group attribute เหลือ 20 IQ dimensions
4. มีการ group อีกรอบ เหลือ 16 IQ dimensions
16 IQ dimensions
– Accessibility : เข้าถึงได้ง่าย
– Appropriate amount of data : เมื่อมีตำแหน่งสูงมากๆ จะมีการใช้ IQ น้อยลง
– Believability : ความน่าเชื่อถือ
– Completeness : ข้อมูลไม่ได้หายไปและเพียงพอสำหรับการใช้งาน
– Concise Representation : ข้อมูลถูกแสดงอย่างกระชับ
– Consistent Representation : แสดงในฟอร์แมตเดียวกัน
– Free-of-Error, Accuracy : เป็นเรื่องของความถูกต้อง
– Ease of Manipulation : ข้อมูลที่ได้จากระบบสามารถเอามาใช้ได้ง่ายไหม ถ้าต้องเอาไปทำงานต่อใช้ง่ายไหม
– Interpretability : มีกา่รใช้เครื่องหมายและภาษาที่ชัดเจน
– Objectivity : ข้อมูลแบ่งเป็นส่วนย่อยๆ ไม่ได้
– Relevancy : ความเกี่ยวข้องของการทำงาน
– Reputation : เนื้อหาของข้อมูลมีชื่อเสียงที่ดี
– Security : มีการกำหนดความปลอดภัยในการเข้าถึงข้อมูล
– Timeless : ข้อมูลมีการ update
– Understandability : ข้อมูลเข้าใจง่ายไหม
– Value-Added : สามารถนำไปใช้ประโยชน์ได้ไหม
IQ Measurement
– Type Of Measurement
1. Subjective assessment
– มีการใช้แบบสอบถาม ในการถามผู้เกี่ยวข้องเกี่ยวกับมุมมองในเรื่องของ IQ
– ความรู้สึกของคนเราขึ้นกับ background ของแต่ละคน ซึ่งส่งผลให้ความรู้สึกที่มีต่อการวัดคุณภาพของ IQ ต่างกัน
– ตัวอย่างของแบบทดสอบ : Information is correct, incorrect, accurate, reliable
2. Object measurement
– สามารถใช้โปรแกรมว่าข้อมูลถูกต้องไหม โดยข้อมูลที่ถูกต้องและสามารถวัดได้โดยโปรแกรมเช่น correctness
– แต่อย่าง relevancy, believeability, Reputation ไม่สามารถวัดได้ (ส่วนที่ต้องถามผู้ใช้)
– อะไรที่จะวัดได้ต้องมี business rule, spec ที่ชัดเจน
– Pipino มีการวัด 3 แบบ
1. Simple ratio : ใช้ 0-1 หา ratio ของ outcome ที่อยากได้กับข้อมูลทั้งหมด, โดยใช้วัด Accuracy, Consistency, Appropriate amount of data
Operator
2. Min or Max operators
– Minimum Operator : ใช้วัดbelieveabliliity,Appropriate amount of data เช่น เราถามผู้ใช้ว่าข้อมูลน่าเชื่อถือไหม เราจะเอาค่าต่ำสุดมาเป็นค่าที่เชื่อถือได้
– Max Operator : ใช้วัด Timeliness (ต้องมีการกำหนดอายุของข้อมูล และระยะเวลาที่สามารถใช้ข้อมูลต่อได้อีก), accessibility
3. Weighted Average : ใช้วัดน้ำหนักเฉลี่ย โดยต้องถามว่าต้องการจะให้ความสำคัญกับอันไหนมาก
– Comparison of Objective and Subjectve Assessment
Feature\Benchmart | Objective | Subjective |
Tool | Software | Survey |
Measuring Target | Datum | Representation Information |
Measuring Standard | Rules,Pattern | User Satisfaction |
Process | Automated | User Involved |
Result | Single | Multiple |
Data Storage | Database | Business Contexts |
Leave a comment