使用 Headless Chrome 擷圖、轉存PDF、爬資料

2018-07-10 11:24 PM

24,652

Chrome 自 59 版起內建了 Headless 模式，允許透過命令列啟動 Chrome 以無 GUI 方式執行，具備與正常開啟完全相同的網頁渲染及 JavaScript 引擎，還可透過網路連線遙控。這個功能可以用於不少有趣應用，這裡列舉幾種實用情境。

註：Headless Chrome 的完整參數可參考 List of Chromium Command Line Switches « Peter Beverloo

網頁擷圖

將網頁存成圖檔或 PDF，過去我是用 PhantomJs。Headless Google 的出現，能取代 PhantomJS 功能且更快更穩，讓 PhantomJS 作者決定停止辛苦的獨力維護工作，PhantomJS 的Github 專案也已封存，故改用 Headless Chrome 已成定局。

要使用 Headless Chrome 擷圖很簡單，在命令列工具輸入：
"c:\Program Files (x86)\Google\Chrome\Application\chrome.exe" --headless --screenshot=E:\Chrome\test.png --disable-gpu --window-size=320,568 https://www.microsoft.com

即可取得圖檔如下：

很簡單吧?

如要模擬行動裝置，則可加入--user-agent="…" 指定User-Agent。例如 Google 網站預設是以桌上電腦解析度呈現，遇直式小螢幕解析度不會自動切換：
"c:\Program Files (x86)\Google\Chrome\Application\chrome.exe" --headless --screenshot=E:\Chrome\test.png --disable-gpu --window-size=320,568 https://www.google.com.tw

擷圖時只能看到部分內容：

遇此狀況，可加上--user-agent="" 傳入 iPhone 5/SE 的 User-Agent 字串克服：

"c:\Program Files (x86)\Google\Chrome\Application\chrome.exe" --headless --screenshot=E:\Chrome\test.png --disable-gpu --window-size=320,568 --user-agent="Mozilla/5.0 (iPhone; CPU iPhone OS 10_3_1 like Mac OS X) AppleWebKit/603.1.30 (KHTML, like Gecko) Version/10.0 Mobile/14E304 Safari/602.1" https://www.google.com.tw

加上 User-Agent 後，Google 網站改回傳行動裝置專屬排版(底下還有 App 安裝提示)：

網頁另存PDF

使用參數--print-to-pdf 可模擬瀏覽器列印功能，將網頁存成PDF，例如：

"c:\Program Files (x86)\Google\Chrome\Application\chrome.exe" --headless --print-to-pdf=E:\Chrome\test.pdf --disable-gpu http://www.microsoft.com

線上偵錯

遇到 Headless Chrome 行為未如預期時，一樣可用 F12 開發者工具偵錯，做法是透過--remote-debugging-port=xxxx 參數開啟線上偵錯功能：

"c:\Program Files (x86)\Google\Chrome\Application\chrome.exe" --headless --remote-debugging-port=9222 --disable-gpu http://www.microsoft.com

啟動 Headless Chrome 後，再另開一個 Chrome 連上 localhost:9222，可得到已開啟網頁清單：

點選後即可比照一般網頁使用 F12 開發者工具偵錯：

網頁爬蟲、自動測試

除了擷圖跟存 PDF，我們也可以寫 JavaScript 程式操作 Headless Chrome 執行較複雜的動作，很適合用來執行自動測試或擷取網頁內容。要透過 JavaScript 操作 Headless Chrome，需借助一個 Node.js 程式庫 - Puppeteer。開始之前需先安裝 Node.js，再使用 npm 安裝 Puppeteer。(註：安裝 Puppeteer 預設將一併安裝 Chromium 執行檔，如想直接使用 Chrome 不額外下載，可使用指令 env PUPPETEER_SKIP_CHROMIUM_DOWNLOAD=true npm i --save puppeteer 參考)

Node.js 支援 ECMAScript 6，跟我平常網頁在寫的 JavaScript 寫法大異其趣。但我爬了幾篇文章，倒是也能寫出 Google 查詢關鍵字並抓回搜尋結果的簡單程式。(補充：Puppeteer API 文件 https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md )

程式範例如下：

const puppeteer = require('puppeteer');

(async() => {
const browser = await puppeteer.launch({
	executablePath: 'C:\\Program Files (x86)\\Google\\Chrome\\Application\\chrome.exe'
});
const page = await browser.newPage();
//連上Google搜尋網頁
await page.goto('https://www.google.com.tw', {waitUntil: 'networkidle2'});
var res  = await page.evaluate(() => {
	document.querySelector("input[type=text]").value = "darkthread";
});
//點選並等待結果
await page.click("input[value='Google 搜尋'][type=submit]");
await page.waitForNavigation({ waitUntil: 'networkidle0' });
//擷取影像
await page.screenshot({path: 'result.png'});
//擷取搜尋結果傳回JSON
res = await page.evaluate(() => {
	return [].slice.call(document.querySelectorAll("#ires div.g h3 a"))
	.map((a) => { return { "text": a.innerHTML, "link": a.href }; });
});
console.log(res);
await browser.close();
})();

實測如下：

工具箱再添新武器一件。

Comments

# 2018-07-23 07:04 AM by paicheng

感謝黑暗大的這篇文章。我過去都在Python用Selenium + PhantomJS，如今可以試著轉到selenium + headless Chrome

# 2018-11-30 02:18 AM by Joy

感謝大大! 如果想把pdf改橫向怎麼改呀?

# 2018-11-30 09:25 AM by Jeffrey

to Joy, 依據網友的研究心得 https://superuser.com/a/1281535/264724 ，不太可行。

# 2018-11-30 11:24 AM by Joy

OK! 感謝Jeffrey! 只好另尋他路利用 Puppeteer不知是否可行

# 2019-03-31 04:18 PM by 陳瑋棋

1.略過安裝Chromium 最新方式 npm config set puppeteer_skip_chromium_download true -g 2.然後您的code最後要catch 不然會報UnhandledPromiseRejectionWarning 參考 1. https://github.com/GoogleChrome/puppeteer/issues/2262#issuecomment-407405037 2. https://objcer.com/2017/12/27/unhandled-promise-rejections-in-node-js/

# 2019-03-31 06:06 PM by Jeffrey

to 陳瑋棋, 感謝分享。

<	2018/7					>
Sun	Mon	Tue	Wed	Thu	Fri	Sat
1 1	2 2	3 3	4 4	5 5	6 6	7 7
8 8	9 9	10 10	11 11	12 12	13 13	14 14
15 15	16 16	17 17	18 18	19 19	20 20	21 21
22 22	23 23	24 24	25 25	26 26	27 27	28 28
29 29	30 30	31 31	1 1	2 2	3 3	4 4

<	2018					>
JAN(14)FEB(10)MAR(10)APR(14)MAY(19)JUN(6)JUL(8)AUG(12)SEP(12)OCT(19)NOV(11)DEC(16)