[IQ] Introduction to Information Quality

[IQ] Introduction to Information Quality

IQ_intro3.jpg

หลังจากที่เรียนวิชา Information Quality มาครึ่งเทอมก็ต้องมาสรุปเนื้อหากันหน่อย ซึี่งในเอนทรี่นี้ก็มีการอธิบายถึงการนิยามของ Information Quality หรือคุณภาพของข้อมูล, อธิบายมุมมองต่างๆ ที่มาใช้ในการพิจารณาคุณภาพของข้อมูล ซึ่งก็ประกอบไปด้วย 16 Dimension ด้วยกัน รวมไปถึงอธิบายถึงวิธีการวัดคุณภาพของข้อมูลในตอนท้ายอีกด้วย

Information Quality Definition Approach

– นิยามมันหลากหลายโดยมี 3 Approach หลักๆ

1. Theoretical Approach

– Fox et al.(1994)
– นิยามจาก Database theory เช่น Entity Relationship model
– ในฐานข้อมูลส่วนใหญ่จะเป็น entity โดยมี relationship ระหว่างกัน
– Accuracy : ความถูกต้องของข้อมูล เช่นวันเกิด
– Currentness : ความถูกต้อง ณ เวลาใดเวลาหนึ่งเช่น เงินเดือน
– Completeness : ข้อมูลเข้าไปครบถ้วนตามจำนวน entity ครบไหม อาจจะมองได้ว่า ตอนที่จับ data มาใส่ model มี attribute ครบไหม
– Consistent :ความสอดคล้องข้อมูล ขึ้นอยู่กับกฏเกณฑ์ที่กำหนด เช่น ห้ามเป็น Null

2. Researcher’s Experience

– คุณภาพของข้อมูลมันมีอยู๋แม้ว่าข้อมูลนั้นยังไม่ถูกเอาไปเก็บในฐานข้อมูล
– คุณภาพแบ่งเป็น
1. data value เช่น ความถูกต้อง
2. data modeling เช่น เวลาออกแบบมาแล้วครบถ้วนไหม บอกความสัมพันธ์ถูกต้องไหม
3. data representation on physical storage อยู่ที่ว่าข้อมูลที่คีย์เข้าไปมันตรงกับโลกความเป็นจริงไหม

3. User Perception (User Quality)

– บิดาคุณภาพข้อมูล (Juran) ที่กำหนดทฤษฏีการควบคุมคุณภาพ โดยเอา concept มาจากญี่ปุ่น
– มีทีมนักวิจับ wang มีการคิด dimension ว่าทำยังไงถึงจะมอง IQ ครบถ้วนสมบูรณ์ มีการใช้ทฤษฏีคุณภาพ
– ทำการวิจัยจาก information customer จากนักเรียนของมหาลัย
– โดยได้ข้อมูลมาจากหลาย dimension ที่เป็นผลจาก Information systems เช่น, data values, information representation, context of use, system productivity, system quality
– ตัวอย่างการนิยาม

Completeness : ข้อมูลไม่ได้หายไปและเพียงพอสำหรับการใช้งาน
Consistent Representation :  หมายถึงเรื่องของ format, ข้อมูลอยู่ใน Format ที่อยู่ในรูปแบบเดียวกันไหม
Free-of-Error, Accuracy : เป็นเรื่องของความถูกต้อง
Relevancy : เกี่ยวข้องกับงานที่ทำ โดยมุมมองของพนักงานแต่ละคนอาจจะแตกต่างกัน
Timeless : ข้อมูลมีการ update

– วิธีการSurvey ของทีม wang
1. ทำการถามผู้ใช้งานที่อยู่ในองค์กร 25 คน และ 112 MBA : ถามว่าคุณคิดอะไรได้จากเรื่องของ IQ จากความคิดของคุณ, มีการแสดง 32 attribute ที่คัดมาแล้วว่าอยากจะเพิ่มเข้าไปไหม ในที่สุดได้ 179 IQ attributes
2. เอา 179 attributes ให้ศิษย์เก่าของ MBA 1500 คนมาจัดลำดับ : ทำการส่งจดหมายไปถาม ซึ่งจะมีเพียง 20% ของการตอบรับที่ใช้งานได้ ก็ได้ 118 IQ attributes เรียงลำดับความสำคัญมา
3. ใช้ Factor analysis ในการ group attribute เหลือ 20 IQ dimensions
4. มีการ group อีกรอบ เหลือ 16 IQ dimensions

16 IQ dimensions

– Accessibility : เข้าถึงได้ง่าย
– Appropriate amount of data : เมื่อมีตำแหน่งสูงมากๆ จะมีการใช้ IQ น้อยลง
– Believability : ความน่าเชื่อถือ
– Completeness : ข้อมูลไม่ได้หายไปและเพียงพอสำหรับการใช้งาน
– Concise Representation : ข้อมูลถูกแสดงอย่างกระชับ
– Consistent Representation : แสดงในฟอร์แมตเดียวกัน
– Free-of-Error, Accuracy : เป็นเรื่องของความถูกต้อง
– Ease of Manipulation : ข้อมูลที่ได้จากระบบสามารถเอามาใช้ได้ง่ายไหม ถ้าต้องเอาไปทำงานต่อใช้ง่ายไหม
– Interpretability : มีกา่รใช้เครื่องหมายและภาษาที่ชัดเจน
– Objectivity :  ข้อมูลแบ่งเป็นส่วนย่อยๆ ไม่ได้
– Relevancy : ความเกี่ยวข้องของการทำงาน
– Reputation : เนื้อหาของข้อมูลมีชื่อเสียงที่ดี
– Security : มีการกำหนดความปลอดภัยในการเข้าถึงข้อมูล
– Timeless : ข้อมูลมีการ update
– Understandability : ข้อมูลเข้าใจง่ายไหม
– Value-Added : สามารถนำไปใช้ประโยชน์ได้ไหม

IQ Measurement

– Type Of Measurement

1. Subjective assessment

– มีการใช้แบบสอบถาม ในการถามผู้เกี่ยวข้องเกี่ยวกับมุมมองในเรื่องของ IQ
– ความรู้สึกของคนเราขึ้นกับ background ของแต่ละคน ซึ่งส่งผลให้ความรู้สึกที่มีต่อการวัดคุณภาพของ IQ ต่างกัน
– ตัวอย่างของแบบทดสอบ : Information is correct, incorrect, accurate, reliable

2. Object measurement

– สามารถใช้โปรแกรมว่าข้อมูลถูกต้องไหม โดยข้อมูลที่ถูกต้องและสามารถวัดได้โดยโปรแกรมเช่น correctness
– แต่อย่าง relevancy, believeability, Reputation ไม่สามารถวัดได้ (ส่วนที่ต้องถามผู้ใช้)
– อะไรที่จะวัดได้ต้องมี business rule, spec ที่ชัดเจน
– Pipino มีการวัด 3 แบบ

1. Simple ratio : ใช้ 0-1 หา ratio ของ outcome ที่อยากได้กับข้อมูลทั้งหมด, โดยใช้วัด Accuracy, Consistency, Appropriate amount of data
Operator
2. Min or Max operators
– Minimum Operator : ใช้วัดbelieveabliliity,Appropriate amount of data   เช่น เราถามผู้ใช้ว่าข้อมูลน่าเชื่อถือไหม เราจะเอาค่าต่ำสุดมาเป็นค่าที่เชื่อถือได้
– Max Operator : ใช้วัด Timeliness (ต้องมีการกำหนดอายุของข้อมูล และระยะเวลาที่สามารถใช้ข้อมูลต่อได้อีก), accessibility
3. Weighted Average : ใช้วัดน้ำหนักเฉลี่ย โดยต้องถามว่าต้องการจะให้ความสำคัญกับอันไหนมาก

– Comparison of Objective and Subjectve Assessment

Feature\Benchmart Objective Subjective
Tool Software Survey
Measuring Target Datum Representation Information
Measuring Standard Rules,Pattern User Satisfaction
Process Automated User Involved
Result Single Multiple
Data Storage Database Business Contexts

Leave a comment