Linux: shell脚本获取网页快照(网页截图)并生成缩略图

获取网页快照并生成缩略图可分两步进行:

1、获取网页快照

2、生成缩略图

 

获取网页快照

这里我们用 phantomjs 来实现。关于 phantomjs 的详细用法可参考官方网站

 

1、安装

我的环境是CentOS6.5,安装时直接下载 tarball 然后解压即可。

最新版参看:https://github.com/ariya/phantomjs,下载地址为: https://phantomjs.org/download.html

# wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-1.9.8-linux-i686.tar.bz2

# tar -jxvf phantomjs-1.9.8-linux-i686.tar.bz2

# cp phantomjs-1.9.8-linux-i686/bin/phantomjs /bin/phantomjs

第二步中解压后bin目录下的 phantomjs 二进制文件即是可调用命令。

第三步是为了在以后调用命令时不必输入命令全路径。

 

2、调用

phantomjs的调用需要一个js脚本。这个js脚本接收两个参数,分别是网址url和快照文件名称filename,脚本snap.js内容如下:

/*
 * desc: get snapshot from url
 * example: phantomjs snap.js http://www.baidu.com baidu.png
 */

var page = require('webpage').create();
var args = require('system').args;

var pageW = 1024;
var pageH = 768;

page.viewportSize = {
  width: pageW,
  height: pageH
};

var url =  args[1];
var filename = args[2];
page.open(url, function (status) {
    if (status !== 'success') {
        console.log('Unable to load ' + url + ' !');
        phantom.exit();
    } else {
        window.setTimeout(function () {
            page.clipRect = { left: 0, top: 0, width: pageW, height: pageH };
            page.render(filename);
            console.log('finish:', filename);
            phantom.exit();
        }, 1000);
    }
});

在这个脚本中还有个小小的设置,就是设置打开页面的浏览器可视区域的大小为1024*768,然后取第一屏内容。

调用命令如下:

phantomjs snap.js http://www.baidu.com baidu.png

注意:这里执行命令的用户需要对目录有写权限。

 

如果要截取全屏,可以使用:

var page = require('webpage').create();
var args = require('system').args;

var url      = args[1];
var filename = args[2];

var pageW = args[3] || screen.width;
var pageH = args[4] || document.body.scrollHeight;

page.viewportSize = { width:pageW, height:pageH };

page.open(url, function (status) {
    if (status !== 'success') phantom.exit();
    else window.setTimeout(function () { page.render(filename); phantom.exit(); }, 200);
});

用法相同:

phantomjs snap.js http://justcode.ikeepstudying.com ikeepstudying.png

或者

phantomjs snap.js http://justcode.ikeepstudying.com ikeepstudying.png 500 150

 

更多实例:

var URLS = ["https://google.com",
            "http://www.bing.com/",
            "https://www.yahoo.com/"
            ]

var SCREENSHOT_WIDTH = 1280; 
var SCREENSHOT_HEIGHT = 900; 
var LOAD_WAIT_TIME = 5000; 

var getPageTitle = function(page){
    var documentTitle = page.evaluate(function(){
        return document.title; 
    })
    console.log("getting title:", documentTitle)
    return documentTitle; 
}

var getPageHeight = function(page){
    var documentHeight = page.evaluate(function() { 
        return document.body.offsetHeight; 
    })
    console.log("getting height:", documentHeight)
    return documentHeight; 
}

var renderPage = function(page){

    var title =  getPageTitle(page);

    var pageHeight = getPageHeight(page); 

    page.clipRect = {
        top:0,left:0,width: SCREENSHOT_WIDTH, 
        height: pageHeight
    };
    page.render(title+".png");
    console.log("rendered:", title+".png")
}

var exitIfLast = function(index,array){
    console.log(array.length - index-1, "more screenshots to go!")
    console.log("~~~~~~~~~~~~~~")
    if (index == array.length-1){
        console.log("exiting phantomjs")
        phantom.exit();
    }
}

var takeScreenshot = function(element){

    console.log("opening URL:", element)

    var page = require("webpage").create();

    page.viewportSize = {width:SCREENSHOT_WIDTH, height:SCREENSHOT_HEIGHT};

    page.open(element); 

    console.log("waiting for page to load...")

    page.onLoadFinished = function() {
        setTimeout(function(){
            console.log("that's long enough")
            renderPage(page)
            exitIfLast(index,URLS)
            index++; 
            takeScreenshot(URLS[index]);
        },LOAD_WAIT_TIME)
    }

}

var index = 0; 

takeScreenshot(URLS[index]);

 

3、效果

获取的截图如下:

Linux: shell脚本获取网页快照(网页截图)并生成缩略图
Linux: shell脚本获取网页快照(网页截图)并生成缩略图

 

生成缩略图

生成缩略图用的是ImageMagick工具,ImageMagick是个非常强大的图片处理工具,可对图片进行转化(格式转换、缩放、剪切、模糊、反转等)、屏幕截图、图片显示等。

 

1、安装

ubuntu安装:

sudo apt-get install imagemagick

 

2、调用

我们这里只使用图片缩放工具,语法为:

convert -resize 320x240 baidu.png baidu_thumbnail.png

默认是按比率缩放,如果要强制缩放,可以在尺寸后面加感叹号:

convert -resize 320x240! baidu.png baidu_thumbnail.png

 

3、效果

生成的缩略图如下:

Linux: shell脚本获取网页快照(网页截图)并生成缩略图
Linux: shell脚本获取网页快照(网页截图)并生成缩略图

 

 

整合脚本

如果希望将上两步自动化,可以写一个shell脚本实现:

# !/bin/bash
# desc: create snapshot from url
# example: sh createsnap.sh http://www.baidu.com baidu

URL=$1

IMAGE_NAME=$2

SNAPSHOT_NAME="${IMAGE_NAME}.png"

THUMBNAIL_NAME="${IMAGE_NAME}_thumbnail.png"

phantomjs snap.js $URL $SNAPSHOT_NAME

convert -resize 320x240 $SNAPSHOT_NAME $THUMBNAIL_NAME

exit 0

 

参考文档

1、http://phantomjs.org/

2、http://www.imagemagick.org/

 

参看:如何在Ubuntu 16.04中创建GIF动图

 

本文:Linux: shell脚本获取网页快照(网页截图)并生成缩略图

 

One Comment

Leave a Reply