為了讓大家更快更容易的上手火車采集器,先把關于采集器的幾個重要也是必須要知道術語介紹下。
亞馬遜平臺的玩法有很多,有一些朋友會選擇鋪貨模式,那么就需要使用工具去采集更多的產品信息,對于一些新手賣家朋友來說,可能還不是很清楚的知道亞馬遜火車頭采集工具怎么用?
為了讓大家更快更容易的上手火車采集器,先把關于采集器的幾個重要也是必須要知道術語介紹下。
采集規則: 所謂采集規則就是我們要采集一個網站時,在軟件里面進行的設置。這個設置可以從軟件里面導出并保存成一個文件后綴名為.ljobx ,并且這個規則可以再導入任意一個火車采集器
里面使用。換句話說,就是用火車采集器能理解的方式告訴火車采集器我們要采集哪個網站,要采集網站里面的哪些信息的一系列設置。
發布模塊:所謂發布模塊就是在需要將已經采集到的數據發布到目的地(比如:發布到指定的網站上面或者發布到指定的數據庫里面)時在火車采集器里面進行的設置。這個設置可以從采集器里
面導出成一個文件,并且可以把這個文件再次導入任意的火車采集器里面,多次使用。發布到指定網站的設置稱為WEB在線發布模塊后綴名是.wpm。其工作原理是:將采集的數據以POST方式
發送到網站頁面程序中,并由網站程序對數據進行處理然后入到網站的數據庫里面。發布到指定數據庫的設置稱為數據庫發布模塊,后綴名是.dbm。其工作原理是:連接數據庫,將采集的數據直接通過數據庫的SQL語句直接把數據放到數據庫里面。WEB在線發布模塊和數據庫發布模塊統稱為發布模塊。(在線發布模塊制作教程)
采集任務:采集規則告訴采集我要采集什么,發布模塊告訴采集器采集到的數據放到那里,這兩者合在一起,就是一個包含數據采集和數據發布的采集任務。
發布接口:發布接口就是一個小的頁面程序通常和WEB在線發布模塊配合使用。來滿足用戶的特定需求。簡單的說就是采集器將采集的數據發送到發布接口文件中,接口文件得到數據,并按照
用戶特定需求處理數據,用戶可以更加靈活自由的處理采集器采發送的數據。
插件:插件可以讓用戶通過自己寫的PHP者.NET程序放到采集器中對采集的數據進行處理。
大家操作的時候,要特別注意控制速度和間隔時間,因為他們的反爬蟲監控是最嚴格的,如果爬得太快和太頻繁,就很容易被發現,結果就是爬蟲無法訪問網頁了。
特別聲明:以上文章內容僅代表作者本人觀點,不代表ESG跨境電商觀點或立場。如有關于作品內容、版權或其它問題請于作品發表后的30日內與ESG跨境電商聯系。
二維碼加載中...
使用微信掃一掃登錄
使用賬號密碼登錄
平臺顧問
微信掃一掃
馬上聯系在線顧問
小程序
ESG跨境小程序
手機入駐更便捷
返回頂部