DATA ANALYST คือ คนที่สามารถนำข้อมูลที่เก็บรวบรวมไว้ในโครงสร้าง Structure Data มาวิเคราะห์เพื่อสรุปหาข้อมูลเชิงลึก (Business Insight) ด้วยการใช้ Programming, Stats มาเป็นเครื่องมือในการวิเคราะห์ เพื่อช่วยในการตัดสินใจในธุรกิจโดยมีข้อมูลอ้างอิง(Data Decision Making)

สกิลที่ DATA ANALYST ต้องมี

Google-Sheet-logo

Spread Sheet

SQL-logo

SQL

r-logo

R

python-logo-2

Python

Data Transformation

Data Visualization

Machine-Learning

Data Analysis with Statistics and Machine Learning

dashboard

Dashboard & Report

SPREAD SHEET คืออะไร?

Spread Sheet คือโปรแกรมคอมพิวเตอร์ที่ใช้เพื่อคำนวณ, จัดการ, วิเคราะห์, และจัดการข้อมูลในรูปแบบตารางแม้ว่าสเปรดชีตจะมีความคล้ายคลึงกันกับฐานข้อมูล แต่จะต่างกันตรงที่สเปรดชีตจะเป็นตารางเดียว ในขณะที่ฐานข้อมูลประกอบด้วยหลายตารางที่มีความสัมพันธ์ (Relational Database).

คำว่า “สเปรดชีต” มีรากฐานมาจากประวัติศาสตร์ โดยมนุษย์จัดระเบียบข้อมูลลงในตารางตั้งแต่สมัยโบราณ เช่น ชาวบาบิโลนใช้แผ่นดินเหนียวในการจัดเก็บข้อมูลประมาณ 1,800 ปีก่อนคริสตศักราช.

โดยสรุป “สเปรดชีต” มีความสำคัญอย่างมากในการจัดการข้อมูล และวิเคราะห์ข้อมูลในด้านต่างๆ.

โปรแกรมสเปรดชีตที่นิยมในปัจจุบัน

  1. Microsoft Excel: เนื่องจากมีฟังช์ชั่นที่สามารถวิเคราะหฺข้อมูลได้ง่าย เช่น Pivot Table, Power Query, Analysis Toolpak, Visualization.
  2. Google Sheets: ใช้งานฟรี!!!! หยอกกก สามรถทำได้เหมือน Excel แถมสามารถแชร์ได้ง่ายๆ และสิ่งที่โดดเด่นจาก Excel คือ Query() สามารถเขียน query เหมือนเขียน SQL ได้เลย.

สกิลการใช้งาน Spread Sheet เบื้องต้น

Data Entry, Array Formula, Import Data,Explore, Filtering and Sorting, Creating Conditions, Creating Advanced Conditions ,Conditional Formatting, Querying and Summarizing Data, Dynamic Query, Vlookup, Date, Text(string), Regular Expression. Demo using Google Sheet!

reference: wikipedia, crm.org

SQL ทำอะไรได้บ้าง?

SQL คือ ภาษากลางเพื่อใช้ในการเข้าถึงและจัดการข้อมูลย่อมาจาก Structured Query Language เพื่อใช้งานในการ queries, retrieve data, insert, update, and delete ในฐานข้อมูล.

SQL เป็นคำที่ถูกนิยามโดย ANSI(American National Standards Insitute) และมีมาตรฐานในการใช้งานคำสั่ง เช่น SELECT, UPDATE, DELETE, INSERT, and WHERE ที่สามารถใช้งานได้ในเวอร์ชั่นต่างๆ.

SQL เป็นพื้นฐานในการพัฒนาเว็บไซต์ในปัจจุบันเพื่อในการรับข้อมูลจาก databases.

Database ที่ใช้ภาษา SQL

MySQL, PostgreSQLSQLite, Microsoft SQL Server, Orcale

คำสั่งที่ใช้งานบ่อยใน SQL 

  • SELECT: ใช้เพื่อรับข้อมูลจาก databases.
  • SELECT *: ใช้เพื่อดึงข้อมูลทั้งหมดในตาราง.
  • SELECT DISTINCT: รับข้อมูลที่ไม่ซ้ำกันใน column.
  • AS: เปลี่ยนชื่อคอลัมน์ใน select .
  • FROM: เป็นการระบุว่าเราจะดึงข้อมูลตารางไหน.
  • WHERE: เป็นการ filter ข้อมูลโดยใช้เงื่อนไขต่างๆ IN, AND, OR, NOT IN 
  • ORDER BY: เป็นการเรียงข้อมูล มากไปน้อย หรือน้อยไปมาก.
  • INNER JOIN: แสดงข้อมูลเฉพาะข้อมูลตรงกัน.
  • LEFT JOIN (OUTER JOIN): แสดงผลทุกแถวในตารางซ้ายมือ แล้วแสดงผลที่ตรงกันของตารางขวามือ.
  • RIGHT JOIN (OUTER JOIN): แสดงผลทุกแถวในตารางขวามือ แล้วแสดงผลที่ตรงกันของตารางซ้ายมือ.
  • FULL JOIN (OUTER JOIN): แสดงผลทุกแถว.
  • TRUNCATE TABLE: ลบข้อมูลออกจากตาราง.
  • UNION: รวมผลลัพธ์ต่างๆ และลบข้อมูลซ้ำ.
  • UNION ALL: รวมผลลัพธ์ต่างๆ และเก็บข้อมูลซ้ำ.
  • AND: รวมเงื่อนไขต่างๆเข้าด้วยกัน.
  • COUNT: แสดงผลรวมจำนวนที่non-null ของข้อมูล ในคอลัมน์.
  • SUM: ผลรวม.
  • AVG: ค่าเฉลี่ย.
  • MIN: ค่าที่น้อยที่สุดในคอลัมน์.
  • MAX: ค่าที่มากที่สุดในคอลัมน์.

Project CRUD with SQL

Create, Read, Update, Delete = CRUD GitHub!

Project The Ten Best Selling Video Games

ใช้ Basic query, Join Operation, Aggregation. GitHub!

reference : W3schools, indeed

ผู้คิดค้น SQL เป็นรายแรกคือ บริษัทไอบีเอ็ม หลังจากนั้นมาผู้ผลิตซอฟท์แวร์ด้านระบบจัดการฐานข้อมูลเชิงสัมพนธ์ได้พัฒนาระบบที่สนับสนุนSQL มากขึ้น จนเป็นที่นิยมใช้กันอย่างแพร่หลายในปัจจุบัน”

PYTHON (Programming Language)

python เป็นภาษาที่สร้างมาเพื่อใช้งานทั่วไป ที่หลากหลายมาก มันถูกออกแบบมาให้คนสามารถเข้าใจ  เป็นภาษาการเขียนโปรแกรมที่ใช้อย่างแพร่หลายในเว็บแอปพลิเคชัน การพัฒนาซอฟต์แวร์ วิทยาศาสตร์ข้อมูล และแมชชีนเลิร์นนิง (ML) นักพัฒนาใช้ Python เนื่องจากมีประสิทธิภาพ เรียนรู้ง่าย และสามารถทำงานบนแพลตฟอร์มต่างๆ ได้มากมาย

ประวัติความเป็นมาของ Python

Guido Van Rossum โปรแกรมเมอร์คอมพิวเตอร์ในเนเธอร์แลนด์เป็นผู้สร้าง Python โดยเขาเริ่มต้นในปี 1989 ที่ Centrum Wiskunde & Informatica (CWI)

Data Types in Python

  • Text Type: str
  • Numeric Types: int, float, complex
  • Sequence Types: list, tuple, range
  • Mapping Type: dict
  • Set Types: set, frozenset
  • Boolean Type: bool
  • Binary Types: bytes, bytearray, memoryview
  • None Type: NoneType

Data Structures in Python

  • List
  • Dictionary
  • Tuple
  • Set

Python Libraries

  • Pandas
  • Numpy
  • Scipy
  • Matplotlib
  • Seaborn
  • Scikit-learn

R (Programming Language)

R เป็นภาษาคอมพิวเตอร์ที่สร้างมาเพื่องาน Statistics ปัจจัยหลักที่คนนิยมใช้งานภาษา R เนื่องจากมี extension package ที่หลากหลายสามารถนำมาใช้งานได้ง่าย มีตัวอย่างโค้ดที่สามารถนำมาใช้งานต่อได้(Reuseable Code) มีเอกสารประกอบการใช้งาน(Document) และให้ชุดข้อมูลตัวอย่าง(sample data) มาด้วย ซึ่งการดาวโหลด package เสริมต่างๆสามารถดาวโหลดได้ผ่าน CRAN(Comprehensive R Archive Network)

พื้นฐานการใช้งานภาษา R

การใช้งานภาษา R สามารถใช้งานได้หลากหลายแพลตฟอร์ม แต่แพลตฟอร์มที่เป็นที่นิยมที่สุดคือ R studio หรือ posit และ jupyter notebook ที่สามารถเลือก R เป็นภาษาในการ RUN ได้

Data Type in R

  • numeric
  • character
  • logical
  • factor
  • date

Data Structure

  • vector
  • matrix
  • list
  • DataFrame

Library Packgage

  • ggplot2
  • dplyr
  • tidyr
  • readr
  • caret

Dashboard

เป็นเครื่องมือที่สร้างมาเพื่องาน viusalization เพื่อติดตามผลการทำงานในรูปแบบกราฟ หรือตัวอักษรซึ่งจะจัดวางให้ user เข้าใจได้ง่ายที่สุด ตัดสิ่งที่ไม่จำเป็นออก หรือเรียกอีกชื่อคือ Business Intelligence

เครื่องมือ Dashboard ที่นิยมใช้ในปัจจุบัน

  • Power Bi
  • Tableau
  • Looker Studio

Data Visualization

เป็นขั้นตอนการเอาข้อมูลที่เป็น raw data หรือตัวเลขที่ตีความหมายได้ยาก มาทำให้เข้าใจได้ง่ายขึ้นโดยใช้ภาพเป็นการสื่อความหมาย หลักการที่ต้องเข้าใจเมื่อต้องมีการทำ visualization คือ ต้องทำยังไงก็ได้ให้คนที่มาใช้งานสามารถเข้าใจกราฟให้ได้เร็วที่สุด

วิธีการเลือกใช้ visualization

Comparison

เป็นการเปรียบเทียบความเหมือนหรือแตกต่างระหว่างข้อมูลกับตัวแปรอื่นๆ หรือ เวลา

source : smashing media

Composition

เป็นการเปรียบเทียบสัดส่วนองค์ประกอบของข้อมูล

Source : smashing media

Distribution

เป็นการดูการกระจายตัวของข้อมูล และ outliers

source : smashing media

Relationship

ใช้ในกรณีที่หาความสัมพันธ์ระหว่างตัวแปร

source : smashing media

สรุปภาพรวมการเลือก Chart

source :extremepresentation

Statistics and Machine Learning