Data Science คืออะไร

เรื่องเกี่ยวกับ Data Science ว่ามันคืออะไร ทำให้คนถึงพูดถึงกันเยอะ และมันสำคัญอย่างไรต่อโลกธุรกิจ ออกตัวก่อนว่าผมเองทำงานในด้าน Data แต่ก็ไม่ได้ครอบคลุมทั้งหมดใน Data Science (เพราะมันกว้างมากๆ) แต่ก็จะพยายามทำให้ทุกคนมองเห็นภาพรวมของ Data Science ให้มากที่สุด

จริงๆ ต้องบอกว่าได้มีคนนิยามและพูดถึง Data Science เอาไว้หลากหลายและเป็นเรื่องยากที่จะหานิยามหรือความหายที่จำเพาะเจาะจงลงไป แต่หากลองสรุปจากหลายๆ ที่จะได้ความว่ามันคือศาสตร์แห่งการเก็บและเปลี่ยนแปลงข้อมูลไปสู่ความรู้ และเราเรียกคนที่ทำงานทางด้านนี้ว่า Data Scientist

แล้วทำไมใครๆ ต่างก็ให้ความสนใจ?

Harvard Business Review ได้ตีพิมพ์ “Data Scientist: The Sexiest Job of the 21st Century” ตั้งแต่ปี 2012 และนั่นคือหลักฐานและประโยคที่ใช้อ้างอิงกันมากที่สุดว่า Data Science นั้นเป็นเทรนด์ของโลกที่ปฏิเสธไม่ได้ ซึ่งจริงๆ แล้วการวิเคระห์ข้อมูลนั้นมีมานานแล้วครับ เราคงเคยได้ยินศาสตร์ของ Business Analytics หรือ Business Intelligence ดีอยู่แล้ว เพียงแต่ในรอบหลายปีที่ผ่านมาปริมาณข้อมูลที่ไหลเวียนอยู่บนโลกใบนี้นั้นมันมีขนาดมหาศาลและเติบโตอย่างก้าวกระโดด

ibm-be-a-smarter-business-by-unlocking-your-iot-4-638

เห็นได้ว่าปริมาณข้อมูลนั้นใหญ่โตขึ้นอย่างรวดเร็ว โดยมีการคาดการณ์กันว่าอาจจะไปถึง 44 Zetabytes ในปี 2020 (ใครนึกภาพไม่ออกว่า Zettabyte ใหญ่ขนาดไหนมันคือ External Harddisk ขนาด 1 Terabyte จำนวนหนึ่งพันล้านอันครับ ) รวมถึงข้อมูลส่วนใหญ่ยังอยู่ในรูปแบบที่ไร้โครงสร้าง (unstructured data) ไม่ว่าจะเกิดจาก E-mail, ไฟล์เอกสารต่างๆ, ภาพถ่าย, วีดีโอ, ไฟล์เสียง, การโพสท์บน Social Media, ข้อมูลจาก Sensor ต่างๆ และอื่นๆ อีกมากมาย

figure-1-scm-data-volume-velocity-variety
ที่มา : http://www.forbes.com/sites/steveandriole/2015/03/05/the-other-side-of-analytics/#14ac2d2f9a86

ซึ่งหมายถึงว่าเรามีข้อมูลมากมายมหาศาลในรูปแบบที่หลากหลายไหลเวียนอยู่ และถ้าหากเราสามารถจัดการกับข้อมูลที่ไหลเวียนอยู่เหล่านี้ได้ เราก็สามารถนำมันมาใช้ประโยชน์ได้อีกมหาศาล และความพยายามที่จะนำข้อมูลเหล่านี้มาใช้ประโยชน์นี่แหละครับคือ Data Science

Data Science ประกอบด้วยอะไรบ้าง?

โดยหลักการแล้ว Data Science นั้นเกิดประกอบขึ้นจาก 3 ศาสตร์หลักๆ ครับคือ Hacking Skill (สกิลเกี่ยวกับ Computer Programimg, Data Base, Big data Technologies), Statistic & Math และ Substantive Expertise (บางแห่งก็จะเรียกว่า Domain Knowledge) ที่จำเป็นต้องการประยุกต์ใช้

data_science_vd
ที่มา : http://alldatascience.com/what-is-data-science/

เพราะฉะนั้นจริงๆ แล้ว Data Science ไม่ใช่ความรู้ใหม่ครับ แต่มันคือการนำความรู้เดิมที่มีอยู่มารวมและประยุกต์เข้าด้วยกันจนเกิดเป็นของใหม่ ซึ่งต้องบอกว่ามันไม่ใช่เรื่องง่ายเลยที่จะจัดการศาสตร์และสกิลหลากหลายแขนงเข้าด้วยกัน และเอาเข้าจริงการจะหาคนที่เป็น Data Scientist แบบเต็มตัวนั้นไม่ใช่เรื่องง่าย (คนเดียวที่เก่งทุกอย่าง) ฉะนั้นส่วนใหญ่แล้วจะเป็นการทำงานเป็น ‘ทีม Data Science’ ที่ประกอบด้วยคนที่เก่งแต่ละด้านมาอยู่ในทีมเดียวกัน ซึ่งสิ่งที่จะเป็นผลลัพธ์ที่เกิดจาก Data Science ก็เช่น

  • ค้นพบสิ่งที่เราไม่เคยรู้มาก่อนจากข้อมูล
  • พยายามสร้าง Model สำหรับการพยากรณ์ต่างๆ จากข้อมูล (Predictive Model) และนำสิ่งที่ได้ไปปฏิบัติได้
  • สร้าง Data Product ใหม่ๆ ที่จะส่งผลกระทบต่อธุรกิจ
  • ทำให้ฝ่ายธุรกิจมีความมั่นใจในและสามารถตัดสินใจได้ดีขึ้น (Data-Driven Business)

หรืออธิบายอย่างง่ายคือพยายามงัดแงะ แกะ ข้อมูลขนาดใหญ่ ให้ออกมาเป็นข้อมูลที่มีประโยชน์และความรู้ที่สามารถนำไปใช้ได้

ทำไมคนทั่วไปและธุรกิจต้องสนใจ?

ประการแรกเพราะ “เรา” ทุกคนต่างก็เป็นผู้ให้ข้อมูล อย่าลืมว่าเราถ่ายภาพวันละหลายภาพ, เราส่งอีเมล์,เราโพสท์ลง Social Media, เราใส่นาฬิกาออกกำลังกาย และเราทำสิ่งต่างๆ อีกมากมายที่เป็นการผลิตข้อมูล ซึ่งส่วนใหญ่แล้วธุรกิจก็จะนำข้อมูลเหล่านี้ไปวิเคราะห์และนำเสนอสินค้าและบริการที่ตรงกับพฤติกรรมและนิสัยของเรามากขึ้น อย่างที่ง่ายที่สุดก็เช่น โฆษณาบน Facebook ที่เราแค่ไปสนใจอะไรแว้บเดียว โฆษณาสิ่งเหล่านั้นก็มาโผล่ให้เราเห็นแล้ว หรือการแนะนำ “สินค้าที่คุณน่าจะชอบ” บน Amazon ต่างก็เป็นอิทธิฤทธิ์ของข้อมูลที่ทำให้ผู้ให้บริการทำสิ่งเหล่านี้ได้

แล้วสำหรับธุรกิจล่ะ?

อย่างที่คนทำธุรกิจอยู่แล้วครับว่าข้อมูลคือสินทรัพย์อันล้ำค่าสำหรับการธุรกิจ เราถึงได้เริ่มทำการวิจัยตลอดหรือวิจัยผู้บริโภคกัน ซึ่งเราอาจจะมีข้อมูลสำหรับการวิเคราะก์กันอยู่แล้วไม่ว่าจะเป็นข้อมูลการซื้อขาย, ข้อมูลการคุยโทรศัพท์หรืออีเมล์กับลูกค้า แต่ Big Data และ Data Science จะมาซึ่งข้อมูลที่ใหม่และใหญ่กว่าเดิม ซึ่งหากสามารถหยิบจับเอาข้อมูลเหล่านั้นมาจัดการ มาวิเคราะห์ได้ย่อมเกิดประโยชน์อย่างแน่นอน แผนภาพด้านล่างนี้เป็นตัวอย่างคร่าวๆ ว่าทุกวันนี้ Data Science มาประยุกต์ในธุรกิจแบบไหนบ้าง

impact-of-big-data-on-analytics-13-1024
ที่มา : http://www.slideshare.net/capgemini/impact-of-big-data-on-analytics

กล่าวโดยสรุปสำหรับบทความที่ยืดยาวนี้นะครับ เพราะการเติบอย่างรวดเร็วของปริมาณข้อมูล และเราต้องการความรู้มาจัดการและนำมันมาใช้ให้เป็นประโยชน์ทั้งในแง่ของการพัฒนาสิ่งใหม่ปละประโยชน์ในเชิงธุรกิจ ซึ่ง Data Science อันประกอบไปด้วย Hacking & Computer Skill, Statistic & Mathematics Skill และ Domain Knowledge คือคำตอบนั้น (จริงๆ ยังมี skill อื่นๆ ที่ต้องใช้และคนก็กำลังให้ความสำคัญมากขึ้นเรื่อยๆ ในปัจจุบันอย่างเรื่องของการ Presentation, Visualization ด้วยครับ)