วิทยาการข้อมูล( Data Science )
วิทยาการข้อมูล (Data science) เป็นสหสาขาวิชาที่ใช้วิธีการ กระบวนการ อัลกอริทึม และระบบทางวิทยาศาสตร์มาใช้เพื่อหาความรู้จากข้อมูลหลากหลายรูปแบบทั้งจัดเก็บเป็นระเบียบและไม่เป็น ระเบียบเป็นสาขาที่เกี่ยวข้องกับ การทำเหมืองข้อมูล การเรียนรู้เชิงลึก และ ข้อมูลขนาดใหญ่

วิทยาการข้อมูลเป็นศาสตร์ที่เป็นการบูรณาการสถิติศาสตร์ การวิเคราะห์ข้อมูล และการเรียนรู้ของเครื่องเข้าด้วยกันเพื่อให้สามารถเข้าใจและวิเคราะห์ปรากฏการณ์ที่เกิดขึ้นจริงในข้อมูลได้ใช้เทคนิคและทฤษฎีที่ได้มาจากคณิตศาสตร์ สถิติศาสตร์
จิม เกรย์ นักวิทยาศาสตร์ผู้ได้รับรางวัลทัวริงมองว่า วิทยาการข้อมูลเป็นวิทยาศาสตร์แขนงที่สี่ ต่อยอดมาจาก วิทยาศาสตร์การทดลอง วิทยาศาสตร์ทฤษฎี และวิทยาศาสตร์เชิงคำนวณ โดยเชื่อว่าทุกอย่างที่เกี่ยวข้องกับวิทยาศาสตร์กำลังจะเปลี่ยนไปโดยอิทธิพลของเทคโนโลยีสารสนเทศและการเพิ่มขึ้นของข้อมูล
พื้นฐาน
วิทยาการข้อมูลเป็นสหสาขาวิชาที่มุ่งเน้นการหาความรู้จากกลุ่มข้อมูลซึ่งส่วนมากมักมีขนาดใหญ่ ครอบคลุมตั้งแต่การเตรียมข้อมูลเพื่อวิเคราะห์ วิเคราะห์ และนำเสนอสิ่งที่ค้นพบให้กับผู้มีอำนาจใจการตัดสินใจในองค์กร จึงต้องใช้ทักษะทางด้านวิทยาการคอมพิวเตอร์ คณิตศาสตร์ สถิติศาสตร์ การนำเสนอข้อมูลด้วยภาพ การออกแบบกราฟิก และธุรกิจ
นักสถิติศาสตร์หลายคน อาทิ เนท ซิลเวอร์ มองว่าวิทยาการข้อมูลไม่ได้เป็นศาสตร์ใหม่ แต่เป็นอีกชื่อหนึ่งของสถิติศาสตร์ แต่บ้างก็แย้งว่าวิทยาการข้อมูลเน้นการศึกษาปัญหาและเทคนิคที่แตกต่างกับวิชาสถิติ โดยวิสันต์ ธาร์ ศาสตราจารย์ที่มหาวิทยาลัยนิวยอร์กมองว่าสถิติจะเน้นการศึกษาข้อมูลเชิงปริมาณและหาคำอธิบาย ส่วนวิทยาการข้อมูลจะเน้นศึกษาทั้งข้อมูลเชิงปริมาณและเชิงคุณภาพ (เช่นภาพ) และเน้นการพยากรณ์และการลงมือทำ
เส้นทางอาชีพ
วิทยาการข้อมูลเป็นศาสตร์ที่กำลังเติบโต นักวิทยาการข้อมูลเป็นอาชีพหนึ่งที่ได้รับเงินเดือนระดับที่สูงมากในสหรัฐอเมริกา โดยมีค่ามัธยฐานอยู่ที่ 118,370 ดอลลาร์สหรัฐต่อปี หรือประมาณ 56.91 ดอลลาร์ต่อชั่วโมง การเติบโตของสายงานสูงกว่าค่าเฉลี่ยของแรงงานในตลาด คาดว่าจะเติบโตราวร้อยละ 16 ระหว่างปี ค.ศ. 2018 ถึง ค.ศ. 2028
สาขาเฉพาะทางของวิทยาการข้อมูล
- นักวิทยาศาสตร์การเรียนรู้ของเครื่อง มีหน้าที่วิจัยหาวิธีการวิเคราะห์ข้อมูบแบบใหม่และสร้างอัลกอริทึม
- นักวิเคราะห์ข้อมูล ใช้ข้อมูลขนาดใหญ่เพื่อรวบรวมข้อมูลที่ตรงตามความความสนใจของบริษัท
- ที่ปรึกษาด้านข้อมูล ทำงานร่วมกับภาคธุรกิจเพื่อศึกษาว่าจะใช้ข้อมูลจากการวิเคราะห์ให้เกิดประโยชน์ได้อย่างไร
- สถาปนิกข้อมูล สร้างโซลูชันข้อมูลที่เหมาะสมกับการนำไปใช้งาน
- สถาปนิกการนำไปใช้งาน ติดตามการนำไปใช้งานตลอดทั้งวงจรธุรกิจ
เทคโนโลยีเเละเทคนิค
เทคนิค
- การแบ่งกลุ่มข้อมูล เป็นวิธีการจัดกลุ่มข้อมูลเข้าด้วยกัน
- การลดมิติ ใช้เพื่อลดความความซับซ้อนในการคำนวณเพื่อให้การทำงานเร็วขึ้น
- การเรียนรู้ของเครื่อง ใช้ในการหารูปแบบจากข้อมูล
เทคโนโลยี
- ภาษาไพธอน เป็นภาษาคอมพิวเตอร์ที่ใช้กันทั่วไปในวงการวิทยาการข้อมูล มีไลบรารีให้เลือกใช้มากมาย

- ภาษาอาร์ เป็นภาษาคอมพิวเตอร์ที่ใช้สำหรับการวิเคราะห์ทางสถิติและการทำเหมืองข้อมูล

- TensorFlow เป็นเฟรมเวิร์คที่ใช้ในการสร้างโมเดลการเรียนรู้ของเครื่อง พัฒนาโดยกูเกิล
- PyTorch เป็นเฟรมเวิร์คที่ใช้ในการสร้างโมเดลการเรียนรู้ของเครื่อง พัฒนาโดยเฟซบุ๊ค

- Jupyter เป็นส่วนติดต่อกับผู้ใช้รูปแบบเว็บสำหรับการเขียนภาษาไพธอนที่ทำให้การทำงานสะดวกขึ้น

- Tableau Software ใช้สำหรับการนำเสนอข้อมูลด้วยภาพ

- อะแพชีฮาดูป เป็นเฟรมเวิร์คสำหรับประมวลผลข้อมูลขนาดใหญ่ในระบบปฏิบัติการเชิงกระจาย
ไม่มีความคิดเห็น:
แสดงความคิดเห็น