การใช้งาน web scraping ในภาษา JavaScript แบบง่ายๆ พร้อมตัวอย่าง

# การใช้งาน Web Scraping ในภาษา JavaScript แบบง่ายๆ กับตัวอย่างที่ใช้ได้จริง

Web scraping เป็นกระบวนการที่เราใช้ในการเก็บเกี่ยวข้อมูลจากเว็บไซต์ต่างๆ ผ่านการใช้สคริปต์หรือโปรแกรมที่ทำการ “ขูด” ข้อมูลที่ต้องการอย่างอัตโนมัติ ในยุคข้อมูลครองความสำคัญอย่างทุกวันนี้ web scraping ช่วยให้เราสามารถรวบรวมข้อมูลจำนวนมากโดยไม่จำเป็นต้องทำการคัดลอกและวางข้อมูลด้วยมือซึ่งเป็นกระบวนการที่ใช้เวลานานและค่อนข้างจะมีความผิดพลาดสูง

ในภาษา JavaScript, การทำ web scraping สามารถทำได้ง่ายขึ้นเมื่อเทียบกับภาษาโปรแกรมมิ่งอื่นๆ ด้วยเครื่องมือที่หลากหลายและชุมชนนักพัฒนาที่ให้การสนับสนุน เราจะมาดูตัวอย่าง Code สามตัวอย่างที่แสดงให้เห็นถึงการใช้งาน web scraping ด้วย JavaScript และอธิบายการทำงาน รวมทั้งการนำไปใช้ในโลกจริงที่น่าสนใจ

1. Web Scraping โดยใช้ Request และ Cheerio

Request เป็น library ใน Node.js ที่ใช้สำหรับทำ HTTP calls ง่ายๆ และ Cheerio คือ library ที่ใช้จัดการ HTML เหมือนกับการที่เราใช้ jQuery ใน browser. ตัวอย่างนี้เราจะทำการขูดข้อมูลหัวข้อย่อยจาก Wikipedia.

 const request = require('request');
const cheerio = require('cheerio');

request('https://en.wikipedia.org/wiki/Web_scraping', (error, response, body) => {
  if (!error && response.statusCode == 200) {
    const $ = cheerio.load(body);
    $('h2').each(function(i, element){
      var header = $(this).text();
      console.log(header);
    });
  }
});

ใน code ข้างบน เราใช้ `request` สำหรับเรียกเว็บไซต์ที่ต้องการและใช้ `cheerio` ในการเลือก element `h2` ที่เราต้องการจาก HTML และพิมพ์ข้อความออกมา.

Usecase

นักวิเคราะห์ตลาดอาจใช้กระบวนการนี้ในการเก็บเกี่ยวข้อมูลหัวข้อข่าวจากหน้าข่าวออนไลน์เพื่อติดตามเทรนด์และประเด็นร้อนที่กำลังถูกพูดถึง.

2. Puppeteer เพื่อทำการ Scrape ในหน้าที่มีการโหลด JavaScript

Puppeteer เป็น library ที่สามารถควบคุม Google Chrome หรือ Chromium ผ่านการใช้ API โดยใช้ headless mode หรือ non-headless mode ในการทำ web scraping สำหรับเว็บไซต์ที่โหลดข้อมูลผ่าน JavaScript ตัวอย่างจะสาธิตการขูดเนื้อหาจากหน้า GitHub repository.

 const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://github.com');

  const result = await page.evaluate(() => {
    let title = document.querySelector('h1').innerText;
    return title;
  });

  console.log(result);
  await browser.close();
})();

ในตัวอย่างนี้, เราทำการเปิดเบราว์เซอร์ด้วย `puppeteer.launch`, จากนั้นเรียกหน้า GitHub และใช้ `page.evaluate` สำหรับเลือก element 'h1' และรับข้อความที่อยู่ภายใน element นั้น.

Usecase

นักพัฒนาเว็บอาจใช้ Puppeteer ในการทดสอบเว็บแอพของตัวเอง โดยดูว่าเนื้อหาที่ต้องการถูก render อย่างถูกต้องหรือไม่ เมื่อใช้ JavaScript ในการโหลดหน้าเว็บ.

3. Axios และ Jsdom สำหรับ Web Scraping ข้อมูล JSON จาก API

Axios เป็น HTTP client ยอดนิยมใน Node.js ที่ใช้สำหรับทำ HTTP requests, ส่วน Jsdom สามารถใช้ในการจำลอง DOM ของเว็บเบราว์เซอร์เพื่อเราสามารถจัดการมันได้ภายใน Node.js. ตัวอย่างข้างล่างจะสาธิตการใช้ Axios และ Jsdom ในการขูดข้อมูล JSON.

 const axios = require('axios');
const jsdom = require('jsdom');
const { JSDOM } = jsdom;

axios.get('https://jsonplaceholder.typicode.com/posts')
  .then((response) => {
    const dom = new JSDOM(response.data);
    dom.window.document.querySelectorAll('title').forEach((item) => {
      console.log(item.textContent);
    });
  })
  .catch((error) => {
    console.error('Error during scraping:', error);
  });

ในตัวอย่างนี้, เราใช้ `axios.get` เพื่อรับข้อมูล JSON จาก API, แล้วสร้าง DOM จำลองด้วย `JSDOM` จากนั้นเราจะใช้ query selector เพื่อมองหาข้อมูลที่เราสนใจและพิมพ์ออกมา.

Usecase

ทีมวิเคราะห์ข้อมูลสามารถใช้สคริปต์นี้ในการรวบรวมข้อมูลจาก API ต่างๆ ที่เผยแพร่ข้อมูลแบบ JSON เพื่อนำไปใช้วิเคราะห์หรือทำแดชบอร์ด.

รวมทั้งสิ้น

Web scraping ด้วย JavaScript เป็นเครื่องมือที่มีความยืดหยุ่นสูงและสามารถใช้ได้กับการทำงานหลายๆ อย่าง ตั้งแต่การเก็บข้อมูลอัตโนมัติไปจนถึงการทดสอบเว็บไซต์.

ในอีกด้านหนึ่ง, เราควรใช้ web scraping อย่างมีจริยธรรม โดยคำนึงถึงกฎหมายและข้อตกลงการใช้งานของเว็บไซต์ที่เราต้องการขูดข้อมูล และการปกป้องข้อมูลส่วนบุคคล. หากคุณหลงใหลในการเรียนรู้และสนใจที่จะพัฒนาทักษะการโปรแกรมมิ่งของคุณให้มีคุณค่ายิ่งขึ้น อย่าลืมเข้ามาเรียนรู้ที่ EPT ที่จะช่วยให้คุณสามารถจับจองโลกแห่งข้อมูลได้อย่างเชี่ยวชาญ!

หมายเหตุ: ข้อมูลในบทความนี้อาจจะผิด โปรดตรวจสอบความถูกต้องของบทความอีกครั้งหนึ่ง บทความนี้ไม่สามารถนำไปใช้อ้างอิงใด ๆ ได้ ทาง EPT ไม่ขอยืนยันความถูกต้อง และไม่ขอรับผิดชอบต่อความเสียหายใดที่เกิดจากบทความชุดนี้ทั้งทางทรัพย์สิน ร่างกาย หรือจิตใจของผู้อ่านและผู้เกี่ยวข้อง

Tag ที่น่าสนใจ: web_scraping javascript node.js request cheerio puppeteer axios jsdom html api json programming web_development

บทความนี้อาจจะมีที่ผิด กรุณาตรวจสอบก่อนใช้

หากมีข้อผิดพลาด/ต้องการพูดคุยเพิ่มเติมเกี่ยวกับบทความนี้ กรุณาแจ้งที่ http://m.me/Expert.Programming.Tutor

ไม่อยากอ่าน Tutorial อยากมาเรียนเลยทำอย่างไร?

สมัครเรียน ONLINE ได้ทันทีที่ https://elearn.expert-programming-tutor.com

หรือติดต่อ

085-350-7540 (DTAC)
084-88-00-255 (AIS)
026-111-618
หรือทาง EMAIL: NTPRINTF@GMAIL.COM

แผนที่ ที่ตั้งของอาคารของเรา

EXPERT-PROGRAMMING-TUTOR
รับสอนเขียนโปรแกรมคอมพิวเตอร์

JavaScript

การใช้งาน web scraping ในภาษา JavaScript แบบง่ายๆ พร้อมตัวอย่าง

1. Web Scraping โดยใช้ Request และ Cheerio

2. Puppeteer เพื่อทำการ Scrape ในหน้าที่มีการโหลด JavaScript

3. Axios และ Jsdom สำหรับ Web Scraping ข้อมูล JSON จาก API

รวมทั้งสิ้น

บทความนี้อาจจะมีที่ผิด กรุณาตรวจสอบก่อนใช้

ไม่อยากอ่าน Tutorial อยากมาเรียนเลยทำอย่างไร?

สมัครเรียน ONLINE ได้ทันทีที่ https://elearn.expert-programming-tutor.com

หรือติดต่อ

แผนผังการเรียนเขียนโปรแกรม

Link อื่นๆ

ติดต่อเราได้ที่

EXPERT-PROGRAMMING-TUTOR รับสอนเขียนโปรแกรมคอมพิวเตอร์

JavaScript

การใช้งาน web scraping ในภาษา JavaScript แบบง่ายๆ พร้อมตัวอย่าง

1. Web Scraping โดยใช้ Request และ Cheerio

2. Puppeteer เพื่อทำการ Scrape ในหน้าที่มีการโหลด JavaScript

3. Axios และ Jsdom สำหรับ Web Scraping ข้อมูล JSON จาก API

รวมทั้งสิ้น

บทความนี้อาจจะมีที่ผิด กรุณาตรวจสอบก่อนใช้

ไม่อยากอ่าน Tutorial อยากมาเรียนเลยทำอย่างไร?

สมัครเรียน ONLINE ได้ทันทีที่ https://elearn.expert-programming-tutor.com

หรือติดต่อ

แผนผังการเรียนเขียนโปรแกรม

Link อื่นๆ

ติดต่อเราได้ที่

EXPERT-PROGRAMMING-TUTOR
รับสอนเขียนโปรแกรมคอมพิวเตอร์