วันพฤหัสบดีที่ 20 มกราคม พ.ศ. 2554

Data Warehouse Process & Business Intelligence(19/1/2554)

Data Warehouse Process
1.Operational Data & External Data รวบรวมข้อมูลจากข้อมูลทั้งที่มีในองค์กรและภายนอกองค์กร
2. Data Staging : Extract  คัดแยกข้อมูล เอาเฉพาะส่วนที่ต้องการจะใช้ประโยชน์
                              Clean   เป็นการทำให้ข้อมูลเดียวกันที่อาจแตกต่างกันจากการที่มีหลาย DB เหมือนกัน เช่น ชื่อ นามสกุลนักศึกษาจากที่สำนักทะเบียนและกองกิจการนักศึกษาอาจแตกต่างกัน จากการที่นักศึกษาเปลี่ยนชื่อ หรือการแก้ไขปัญหาจากการเกิดข้อมุลฟันหรอ หรือข้อมุลบางส่วนหายไป โดยการหาค่าเฉลี่ยแทนในข้อมูลส่วนที่หายไป ซึ่งถือว่าเป็นการแก้ปัญหา Consistency วิธีหนึ่ง
                              Transform เป็นการทำให้ข้อมูลอยู่ในรูปแบบที่จะใช้งานเป็นประโยชน์ เช่น เปลี่ยนกทม ให้เป็น ภาคกลาง เพื่อที่จะใช้ในการวิเคราะห์ยอดขายแบบภูมิภาค
                             Load  โหลดข้อมูลลงแต่ละมิติใน Data Cube
3. Data Warehouse/Business Subject
4. Business View
5. Information Catalog
6. Business Information
  นอกจากนั้นยังจะมีขั้นตอนของการทำ Meta Data ด้วย เพื่อเป็นการสนับสนุนข้อมูลที่อยุ่ใน DW เนื่องจาก Meta Data  เป็นการอธิบายข้อมูลที่อยู่ใน DW ว่ามาจากที่ไหน มีรายละเอียดเป็นอย่างไร  (Data Description)

Data Mart
เปรียบเสมือนเป็น DW ขนาดเล็ก ที่ถูกตัดแบ่ง คัดลอกจาก DW เท่าที่จำเป็นสำหรับผู้ใช้ เพื่อเพิ่มความสามารถในการเข้าถึงข้อมูล แบ่งออกได้เป็น 2 ประเภท
1. Replicated  เกิดจากการตัดแบ่ง คัดลอกจาก  Data Enterprice ขององค์กร
2. Stand alone เกิดขึ้นเองก่อนการทำ Data Enterprise ขององค์กร ซึ่งอาจเกิดขึ้นได้ เนื่องจาก องค์กรอาจยังไม่พร้อม จึงเริ่มต้นด้วยการทำเป็น Data Mart แล้วค่อยขยายไปยัง Data Enterprise แต่อย่างไรก็ตาม มักไม่ประสบความสำเร็จเท่าใดนัก

Data Cube
เป็น Multidimentional Database ซึ่งจะช่วยให้ Quries, Sliceand Diceof Information, Rollups, Drill Downs


Business Intelligence (BI)
 คือ เครื่องมือสำหรับวิเคราะห์ข้อมูล ซึ่งเป็นการผสมผสานระหว่าง Architecture, Tools,Database, Applications and Methodologies ผู้บริหารจะใช้ BI เป็นตัวแปลงข้อมูลจาก DW ให้เป็นสารสนเทศ โดยมีจุดประสงค์เพื่อนำสารสนเทศที่ได้ไปใช้ในการตัดสินใจสำหรับผู้บริหาร

BI Function and Feature
1.Reporting and Analysisเช่น  Dashboard,Visualization tools,Scorecards
2.Analytical เช่น  OLAP Data,text and web Mining
3.Data Intregration เช่น  ETL,EII

BI Architecture
1.Data Extraction and Integration
2.Data Mining,query,and analysis tools
3.Enterprise Reporting System

Dashboard & Scorecard
Dashboard เป็นเหมือน Interface ที่ใช้ในการนำเสนอข้อมูล ส่วน Scorecard คือ สื่งที่ใช้วัดผลทั้งด้านการดำเนินงานและการจัดการ  ซึ่งผู้ใช้สิ่งเหล่านี้ คือ ผู้บริหารระดับสูง

       คุณสมบัติที่จำเป็นของ Dashboard
1Drill-down
2 Critical success factors(CSFs)
3. Key performance indicators(KPI)
4.Status access
5.Trend analysis
6. Ad-hoc analysis
7.Exception reporting

        การแสดงผลของ Dashboard จะแบ่งตามกล่มของผู้ใช้งาน ได้แก่
1. Operational dashboards  ระดับพนักงาน
2. Tactical dashboards ระดับผู้จัดการและผุ้วิเคราะห์
3. Strategic dashboards ระดับผุ้บริหารระดับสูง

Business Performance Management (BPM)
เป็นกระบวนการจัดการธุรกิจ

Online Analytical Processing (OLTP)
เป็นเทคโนโลยีซอฟต์แวร์ซึ่งใช้สำหรับนักวิเคราะห์ ผู้จัดการ ผู้บริหารระดับสูง ในวิเคราห์ข้อมูล ช่วยให้ Identify ปัญหาได้ แต่ข้อเสีย คือ บางครั้งไม่สามารถช่วยตอบคำถามได้ หากจะตอบคำถามได้ ต้องใช้ Data Mining เข้ามาช่วยเพิ่มเติม  ตัวอย่างเช่น การทำกราฟ สถิติต่างๆ เป็นต้น

1. Data Mining
เป็นกระบวนการ Extracting previously unknown, comprehensible and actionable Information จาก DB ขนาดใหญ่ เพื่อใช้ประโยชน์ในการตัดสินใจ
          Data Mining Process
          นำข้อมูลจาก Data Warehouse ไปผ่านกระบวนการ ETL ซึ่งจะแตกต่างจากกระบวนการ ETL ของ DW  เนื่องจาก สิ่งที่มีประโยชน์กับการใช้งานใน DW  และ Data Mining ไม่เหมือนกัน หลังจากนั้นก็จะผ่าน Software Mining จะได้  Analyst Output sซึ่งยังไม่ใช่  Output ที่ต้องการ ต้องนำไปผ่านกระบวนการแปลงผล จึงได้เป็น Knowledge 
         รูปแบบของ Data Mining 
1.Clustering ไม่มีสมมติฐานในการจัดการข้อมูล อาศัยจากความสัมพันธ์ของข้อมูล
2.Classification มีสมมติฐานอยุ่ก่อน แล้วทำการตรวจสอบว่าสมมตฐานถูกต้องหรือไม่
3.Association เป็นผลสืบเนื่อง เช่น ถ้าลูกค้าเบิกเกินบัญชีออมทรัพย์ ผลสืบเนื่อง คือ อีก 2 เดือนข้างหน้าต้องทำบัตรเอทีเอ็ม
4,Sequence discovery สิ่งที่เกิดขึ้นตามหลัง
5.Prediction ทำนายอนาคต

 2.Text Mining
   เป็นการ Mining ด้วยระบบ Text จะใช้กับข้อมูล Non-structured ข้อมูลที่ไม่สามารถคำนวณได้ เนื่องจากข้อมูลเหล่านั้นมีประโยชน์กับองค์กร เช่น ข้อมูล Complain ของลูกค้า โดยการค้นหาคำหลัก (keyword) ที่ซ่อนอยู่ในข้อมูลนั้น เช่น การ Complain ของลูกค้าในเรื่องที่คล้ายๆกัน และเรื่องที่มีความสัมพันธ์กัน สามารถหาคำที่ใช้ซ้ำๆ กันได้ 

วันพฤหัสบดีที่ 13 มกราคม พ.ศ. 2554

Lecture8: Data Management 12/01/2011

           Data Management

ระบบสารสนเทศ ( Information System)  คือ  ระบบที่สร้างสารสนเทศ หรือ ระบบที่ทำหน้าที่รวบรวมข้อมูล เพื่อนำมาประมวลผล วิเคราะห์ เพื่อสร้างสารสนเทศสำหรับวัตถุประสงค์เฉพาะด้าน และนำเสนอสารสนเทศให้กับผู้ต้องการ ซึ่งจะต้องเป็นผู้มีสิทธิได้รับสารสนเทศ รวมทั้งจัดเก็บบันทึกข้อมูลที่นำเข้าสู่ระบบเพื่อไว้ใช้งานในอนาคต
เทคโนโลยีสารสนเทศ (Information Technology) คือ เทคโนโลยีที่มีความเกี่ยวข้องกับการวิเคราะห์และประมวลผลข้อมูล เพื่อทำให้สารสนเทศมีประโยชน์และนำไปใช้งานได้
ระบบ (System) ประกอบด้วย
-          วัตถุประสงค์ (Objective)
-          ส่วนประกอบ (Element)
-          กระบวนการทำงาน แบ่งออกเป็น สิ่งที่นำเข้า (Input) กระบวนการ (Process) และผลลัพธ์ (Output)
-          สิ่งแวดล้อม (Environment)
-          ขอบเขต
-          การควบคุม (Control)  และผลย้อนกลับ (Feedback)
-          ระบบย่อย (Subsystem)
ความแตกต่างของ Data & Information
                Data คือ ข้อมูลที่ยังไม่ผ่านกระบวนการ (Input) ขณะที่  Information คือ ข้อมูลที่ผ่านการประมวลผลแล้ว (Output)
อย่างไรก็ตามบางครั้งข้อความเดียวกันอาจเป็นได้ทั้ง Data และ Information ขึ้นอยู่กับว่าผู้รับสารคือใคร ถ้าผู้รับสารเป็นผู้มีส่วนได้เสียหรือได้รับประโยชน์จากข้อความหรือสารนั้น จะถือว่าเป็น  Information ขณะเดียวกันถ้าผู้รับสารไม่ได้เป็นผู้มีส่วนได้เสียหรือไม่ได้รับผลประโยชน์จากข้อความหรือสารนั้น ก็จะถือว่าข้อความดังกล่าวเป็นเพียง Data   

องค์ประกอบของสารสนเทศ
1.       Hardware
2.       Software
3.       Data
4.       Network
5.       People
6.       Procedure
7.       Application
*** คอมพิวเตอร์เป็นเพียงแค่เครื่องมือช่วยในการประมวลผลและจัดเก็บสารสนเทศ

ตัวอย่างของสารสนเทศ

>> Facebook  ไม่ใช่สารสนเทศ
>> Google   ก้ำกึ่ง แต่น่าจะเป็น IT มากกว่า IS เนื่องจาก งานหลักของ Google ซึ่งคือ Search Engin นั้น ไม่จัดเป็นสารสนเทศ แต่อย่างไรก็ตามมีงานอื่นๆของ Google ซึ่งอาจจัดเป็นสารสนเทศได้
>> Amazon  เป็นสารสนเทศ เนื่องจาก การสั่งซื้อสินค้า (Input) จัดการเพื่อการส่งสินค้า(Process) ส่งสินค้า(Output)

        Data Management
                การบริหารข้อมูลมีความยากลำบาก เนื่องจาก  ข้อมูลมีจำนวนมาก กระจายอยู่ทั่วทั้งองค์กร ทำให้เกิดความซ้ำซ้อน (Redundant)  ดังนั้น จะต้องมีการสร้างและเก็บรวบรวมอย่างมีระบบ นอกจากนั้นยังมีการใช้ข้อมูลจากภายนอกด้วย ทำให้เกิดความยุ่งยาก อย่างไรก็ตาม การจัดการข้อมูลนั้นต้องมีการจัดการและควบคุมเพื่อให้ข้อมูลมีทั้ง security quality และ integrity เป็นต้น  แบ่งออกเป็น 4 ส่วน ได้แก่

1.เก็บรวบรวมข้อมูลใหม่จากที่มาต่างๆ
2. จัดเก็บข้อมูลลงใน Database และจัดรูปแบบของข้อมูล (Format) ที่เหมาะสมไว้สำหรับเก็บไว้ใน    Data warehouse
3. ผู้ใช้งานนำข้อมูลจาก Data warehouse  เพื่อใช้ในการวิเคราะห์สิ่งต่างๆ
4. นำข้อมูลไปวิเคราะห์โดยใช้เครื่องมือ ได้แก่  Data analysis tools และ Data mining tools

        Data Life Cycle Process
1.  เก็บรวบรวมข้อมูลใหม่จากที่มาต่างๆ
2.  จัดเก็บข้อมูลลงใน Database และจัดรูปแบบของข้อมูล (Format) ที่เหมาะสมไว้สำหรับเก็บไว้ใน Data Warehouse
3.   ผู้ใช้งานนำข้อมูลจาก Data Warehouse เพื่อใช้ในการวิเคราะห์สิ่งต่างๆ
4.   นำข้อมูลไปวิเคราะห์โดยใช้เครื่องมือ ได้แก่ Data Analysis tools และ Data mining tools


       Data Processing

    1.   Transactional 
    2.   Analytical

          Data warehouse 
        Data warehouse ไม่ใช่ Database ขนาดใหญ่ แต่จะเป็นการ Extract ข้อมูลเฉพาะส่วนที่ต้องการจาก Database เพื่อนำมาใช้ในการ Analytical ทำให้ในการวิเคราะห์นั้นผู้ใช้ไม่จำเป็นต้องดึงข้อมูลจาก Database เพราะอาจทำให้ส่งผลต่อ Transaction Process  ซึ่งองค์กรที่ควรจะมี Data warehouse ต้องเป็นองค์กรที่ผู้บริหารจำเป็นต้องตัดสินใจโดยอาศัยการวิเคราะห์ข้อมูล
 
   คุณสมบัติของ Data warehouse
   1.Organization  จัดหมวดหมู่ข้อมูลใหม่โดยใช้ subject
     2. Consistency  จะทำให้ข้อมูลที่เข้ามาคนละช่วงเวลาเกิดความสม่ำเสมอ
     3. Time variant  ใช้ข้อมูลช่วงของเวลาไม่ใช่จุดของเวลา
     4. Non-volatile data  ข้อมูลที่ใช้มาจากอดีตดังนั้นจะไม่มีการเปลี่ยนแปลงอีกแล้ว ดังนั้นจะไม่มีการ update ข้อมูล แต่จะใช้   การ refresh คือการเพิ่มข้อมูลใหม่
     5. Relational
     6. Client/server ทำงานบน Client/server