網頁備份

From LemonWiki共筆
Jump to navigation Jump to search

網頁歸檔備份的工具比較。比較不同方案「內嵌連結的文字可以點選」、「保留存檔日期」、「保留原始網址」等基礎資訊是否保留? (English version: Archive of webpage) 以及資訊組織方式,例如透過標籤重新組織備份的網頁。

🌐 Switch language: EN, 漢字


  1. 免費服務: 推薦 Archive.is 可以同時儲存網頁內嵌的圖,如果原始網頁遺失,還能保留完整資訊。其次則是 Internet Archive: Wayback Machine
  2. 付費服務: 推薦 桌機版 Evernote,因為即使是需要登入帳號密碼的網頁,也可以順利擷取。如果單純備份公開網頁的書籤服務,則可以選擇 Pinboard ,加入書籤網址之後,則會自動擷取網頁內文與內嵌的圖。
  3. 桌面軟體則可使用 FIrefox 瀏覽器的 ScrapBook 套件,或者是使用 Evernote 應用程式。

比較說明

  • 「內嵌連結的文字可以點選」:這部分對其他軟體/服務多不是問題。但是PDF檔的「直接列印到PDF的虛擬印表機」的產生方式,其內嵌連結的文字是無法點選的,即導致網址資訊會消失。(除非直接寫上網址或購買Adobe Acrobat使用內建的PDFMaker)
  • 「保留存檔日期」:由於檔案本身已經內建日期屬性(在檔案的圖示上,按右鍵選「內容」,就可以看到檔案的「建立日期」),但是很容易因為儲存或FTP到不同媒體時,導致存檔日期有所變動,而Firefox + ScrapBook的方案比較好,會將這項屬性資訊額外儲存。
  • 「保留存檔日期」與「保留原始網址」:這兩項均與學術論文寫作(書目格式)有關,在論文的參考資料部分,如果有引用到網路資料,必須註明網址以及存取日期。
  • 行動性:現有可以完整封裝成單一檔案的方案,都未額外內嵌「保留存檔日期」或者會漏失一些資訊。

可「離線」瀏覽網頁存檔的方案

Good.gif 瀏覽器列印成 PDF

  • 檔案格式:PDF 單一檔案
  • 保留存檔日期: yes
  • 保留原始網址: yes (列印選項,需要勾選「頁首及頁尾」,才會在頁頭頁尾顯示網頁標題、日期、網址等資訊。)
  • 效果:

Good.gif Firefox + 網頁剪貼簿

  • 檔案格式:(1) 資料夾、(2) MAFF 封存檔、(3) HTZ 封存檔、(4) 一個網頁檔
  • 內嵌連結的文字可以點選: yes
  • 保留存檔日期: yes
  • 保留原始網址: yes

Good.gif Firefox + SingleFile 擴充套件

  • 檔案格式: 一個網頁檔
  • 內嵌連結的文字可以點選: yes
  • 保留存檔日期: yes
  • 保留原始網址: yes

HTML to PDF Conversion - PDFonFly.com 輸入HTML文字,直接轉換成PDF

  • 檔案格式:PDF
  • 內嵌連結的文字可以點選:
  • 保留存檔日期:
  • 保留原始網址:


iWeb2x for Chrome Browser chrome.png

  • 檔案格式:PDF 或圖片
  • 內嵌連結的文字可以點選: yes
  • 保留存檔日期: no
  • 保留原始網址: no

iWeb2Print[Last visited: 2010-03-15] 教學:iWeb2Print 把你喜歡的網頁文章存成PDF檔

  • 檔案格式:
  • 內嵌連結的文字可以點選: yes
  • 保留存檔日期: no
  • 保留原始網址: no

Convert Web Page to PDF for Free Online - #1 Web to PDF Converter

  • 檔案格式:PDF
  • 保留存檔日期: yes ((檔案 metadata)
  • 保留原始網址: yes (檔案 metadata)

iWeb2x for Chrome Browser chrome.png

  • 檔案格式:PDF 或圖片
  • 內嵌連結的文字可以點選: yes
  • 保留存檔日期: no
  • 保留原始網址: no

Zotero | Your personal research assistant + Zotero Connector

  • 檔案格式:網頁 (圖檔遺失)
  • 內嵌連結的文字可以點選: yes
  • 保留存檔日期: yes
  • 保留原始網址: yes

Firefox v. 102.0: 另存新檔(網頁,完整封裝)

  • 檔案格式:網頁 + 相關圖片 檔案
  • 保留存檔日期: yes
  • 保留原始網址: yes (檔案 metadata 內的來源欄位,有紀錄原始網址)
  • 效果: 部分圖片可能無法顯示 Icon_exclaim.gif

Firefox browser_firefox.png v.15 + Mozilla Archive Format, with MHT and Faithful Save :: Firefox 附加元件(MAF) 2.x: Save as MAFF MHT Archive

  • 檔案格式:mht 單一檔案
  • 保留存檔日期: yes
  • 保留原始網址: yes
  • 效果: 新版 Firefox v. 102.0 已經不支援該擴充套件 Icon_exclaim.gif

備份網頁畫面圖檔

需「維持網路連線」瀏覽網頁存檔的方案

工具列表

書籤網站或線上備份網頁的服務列表與比較

Good.gif Archive.is - webpage capture [Last visited: 2017-11-18]

  • 檔案類型: 網頁 (例: 維基百科的備份)、網頁樣式 Good.gif
  • 備份網頁原內嵌的圖: 可,圖會額外儲存一份。
  • 備份線上 PDF:
  • 延緩載入的圖片 (lazy load images) : 可,圖片順利儲存
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 有
  • 保留原始網址: 有
  • 備份需登入帳號的網頁: 不可
  • 可瀏覽別人的備份: 可
  • 資料組織與利用: 搜尋特定網址或相同網域的備份: 可 ex: 列出 tw.yahoo.com 網域的網頁備份[1]。查詢語法
    javascript:location.href=%22https://archive.is/%22+location.href;
  • Robots.txt 規則: 忽略
  • 備註: (1) PTT 可能會備份失敗[2],備份到電腦網路內容分級的畫面 (ex)。 (2) 如果是需要捲動網頁,才能看到的圖,備份的網頁可以順利顯示圖 [3]

Google 庫存頁面

  • 檔案類型: 網頁
  • 備份網頁原內嵌的圖: 否,使用原本網頁的圖片
  • 保留存檔日期: 有
  • 保留原始網址: 有
javascript:(function(){if(location.href.indexOf('http')!=0){input=prompt('URL:','http://');if(input!=null){location.href='https://webcache.googleusercontent.com/search?q=cache:'+input}}else{location.href='https://webcache.googleusercontent.com/search?q=cache:'+location.href;}})();


Justaple [Last visited: 2017-11-18]

  • 檔案類型: 保存了圖片、大部分的Flash、網頁樣式
  • 備份網頁原內嵌的圖: 可
  • 備份線上 PDF:
  • 延緩載入的圖片 (lazy load images) : 可,圖片順利儲存
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 可
  • 保留原始網址: 可
  • 備份需登入帳號的網頁:
  • 可瀏覽別人的備份:
  • Robots.txt 規則:
  • 資料組織與利用: 資料夾方式組織; 僅能有20個不公開的網頁存檔; iPhone app提供離線瀏覽功能 (access: 2011-10-27)

Pocket [Last visited: 2017-11-18]

  • 檔案類型: 網頁
  • 網頁原內嵌的媒體(圖, flash等): 圖會額外儲存一份。離線時,APP仍可以讀取網頁圖片。 Icon_exclaim.gif 付費會員才會有永久備份
  • 備份線上 PDF:
  • 延緩載入的圖片 (lazy load images) : 圖片沒有儲存 Icon_exclaim.gif
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 否 Icon_exclaim.gif
  • 保留原始網址: 有
  • 可瀏覽別人的備份: 否。發現 ptt 的文章雖然已經移除,但是加到 Pocket 後,還可以順利看到網頁,所以可能是不同使用者共用同一份網頁備份。
  • Robots.txt 規則: 忽略
  • 資料組織與利用: (1)可以下 tag ,但是不建議在這個服務作組織分類,單純作為未讀文章列表的用途 (2)搜尋標題或網址、網域 (3) 複合書籤搜尋: $

Internet Archive: Wayback Machine [Last visited: 2017-11-18]

  • 檔案類型: 網頁、部分網頁樣式,導致版面可能跟原本的不同
  • 備份網頁原內嵌的圖: 否
  • 備份線上 PDF:
  • 延緩載入的圖片 (lazy load images) : 部分圖片沒有儲存 Icon_exclaim.gif
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 可
  • 保留原始網址: 可
  • 備份需登入帳號的網頁: 否
  • 可瀏覽別人的備份: 可
  • 資料組織與利用: 可搜尋網址、不可搜尋網域對應的網頁。查詢語法[1][2]:
    javascript:location.href=%22http://web.archive.org/web/*/%22+location.href; 或 javascript:void(window.open('https://web.archive.org/web/*/'+location.href));
  • 備註: PTT 可能會備份失敗,備份到電腦網路內容分級的畫面

服務暫停 WebCite [Last visited: 2017-11-18]

  • 檔案類型: 網頁 (例: 維基百科的備份)
  • 備份線上 PDF:
  • 備份網頁原內嵌的圖: , 使用原媒體的網址
  • 延緩載入的圖片 (lazy load images) :
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 有
  • 保留原始網址: 有, 可瀏覽不同時間的備份
  • 備份需登入帳號的網頁: 不可
  • 可瀏覽別人的備份: 可
  • Robots.txt 規則: 遵守
  • 資料組織與利用: 可 搜尋網址的備份,查詢語法 http://www.webcitation.org/query.php?url=網址 (ex) The bookmarklet was as follows:
    javascript:location.href=%22http://www.webcitation.org/query.php?url=%22+location.href;
    ;不可搜尋相同網域的備份。

Instapaper [Last visited: 2017-11-18]

  • 檔案類型: 網頁
  • 備份網頁原內嵌的圖: 否
  • 備份線上 PDF:
  • 延緩載入的圖片 (lazy load images) : 可,圖片順利儲存
  • 內嵌連結的文字可以點選:
  • 保留存檔日期: 有
  • 保留原始網址: 有
  • 備份需登入帳號的網頁:
  • 可瀏覽別人的備份: 否
  • Robots.txt 規則:
  • 資料組織與利用:

notion.so: Notion Web Clipper - Chrome 線上應用程式商店 Chrome Browser chrome.png [Last visited: 2019-11-05]

  • 檔案類型: 網頁、PDF
  • 備份網頁原內嵌的圖: 圖會額外儲存一份。離線時,APP、桌面軟體仍可以讀取網頁圖片。
  • 備份線上 PDF: 不可
  • 延緩載入的圖片 (lazy load images) :
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 可。 查看方式: 檢視儲存的筆記: 可
  • 保留原始網址: 可。 查看方式: 檢視儲存的筆記: 可
  • 備份需登入帳號的網頁: 否 Icon_exclaim.gif
  • 可瀏覽別人的備份: 部分可 (需別人授權)
  • Robots.txt 規則:
  • 資料組織與利用:


桌機版 Evernote $ [Last visited: 2018-12-06]

  • 檔案類型: 網頁、PDF
  • 備份網頁原內嵌的圖: 圖會額外儲存一份。離線時,APP、桌面軟體仍可以讀取網頁圖片。 https://www.planetoid.info/images/Icon_exclaim.gif擷取的網頁版面,可能會跟原始網頁不同。
  • 備份線上 PDF: 可
  • 延緩載入的圖片 (lazy load images) : 可,圖片順利儲存
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 可。 查看方式: 檢視儲存的筆記: View note info --> Created (time)
  • 保留原始網址: 可。 查看方式: 檢視儲存的筆記: View note info --> URL
  • 備份需登入帳號的網頁: 桌機版可 https://www.planetoid.info/images/Good.gif、手機版不可
  • 可瀏覽別人的備份: 部分可 (需別人授權)
  • Robots.txt 規則: 忽略
  • 資料組織與利用: (1) 搜尋內文、圖內文字($) (2) 加標籤(tags) /可加註解 (3) 安裝桌面端軟體便可離線 (4) 複合書籤搜尋: 有。例如: 輸入 tag:TAG1 tag:TAG2 keywords 搜尋同時標籤 TAG1TAG2 ,並且包含關鍵字 keywords 的記事內容。

Diigo $[3] [Last visited: 2017-11-18]

  • 檔案類型: 網頁、圖、PDF
  • 備份網頁原內嵌的圖: 備份網頁時,預設不會儲存圖檔,需要手動逐張儲存圖片至Diigo
  • 備份線上 PDF: 可
  • 延緩載入的圖片 (lazy load images) : 可,圖片順利儲存
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 有
  • 保留原始網址: 有
  • 備份需登入帳號的網頁: 不可
  • 可瀏覽別人的備份: $ 不可,並保留不同時間儲存的備份 Good.gif
  • Robots.txt 規則: 忽略
  • 資料組織與利用: 加標籤(tags) /可加註解
    搜尋範圍: 網頁標題、標籤、註解、網頁網址、網域、快取的網頁內文。

Pinboard $ [Last visited: 2017-11-18]

  • 檔案類型: 網頁
  • 備份網頁原內嵌的圖: 可。保存了圖片、網頁樣式(每個網頁32MB大小限制) Good.gif
  • 備份線上 PDF:
  • 延緩載入的圖片 (lazy load images) :
  • 備份網頁原內嵌的圖:
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 可
  • 保留原始網址: 可
  • 備份需登入帳號的網頁: 不可
  • 可瀏覽別人的備份: 不可。只會留一份備份。 Icon_exclaim.gif
  • Robots.txt 規則:
  • 資料組織與利用: 標籤; 搜尋範圍: 網頁標題、標籤、註解、快取的網頁內文、網頁網址(bug)。 Icon exclaim.gif不包含網頁網址。

ウェブ魚拓 (megalodon) [Last visited: 2017-11-18]

  • 檔案類型: 網頁
  • 備份網頁原內嵌的圖: 可。保存了圖片、網頁樣式
  • 備份線上 PDF:
  • 延緩載入的圖片 (lazy load images) : 可,圖片順利儲存
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 可
  • 保留原始網址: 可
  • 備份需登入帳號的網頁:
  • 可瀏覽別人的備份: 可
  • Robots.txt 規則:
  • 資料組織與利用: 可搜尋網址的備份,查詢語法 http://megalodon.jp/?url=網址 e.g. [4]

Web Archive -- 國立臺灣大學網站典藏庫(NTU Web Archiving System, NTUWAS) [Last visited: 2018-03-25] Icon_exclaim.gif 由台大決定哪些網站要備份

  • 檔案類型: 網頁
  • 備份網頁原內嵌的圖: 可。保存了圖片、網頁樣式
  • 備份線上 PDF:
  • 延緩載入的圖片 (lazy load images):
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 可
  • 保留原始網址: 可
  • 備份需登入帳號的網頁:
  • 可瀏覽別人的備份:
  • Robots.txt 規則:
  • 資料組織與利用:

Microsoft OneNote Online [Last visited: 2018-09-15]

  • 檔案類型: 網頁、圖、PDF 都可
  • 備份網頁原內嵌的圖: 可
  • 備份線上 PDF:
  • 延緩載入的圖片 (lazy load images):
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 可
  • 保留原始網址: 否 Icon_exclaim.gif
  • 備份需登入帳號的網頁: 否
  • 可瀏覽別人的備份: 否
  • Robots.txt 規則: 忽略
  • 資料組織與利用: 筆記本、節

Perma.cc (example) [Last visited: 2020-10-18]

  • 檔案類型: 網頁、圖、PDF
  • 備份網頁原內嵌的圖: 可
  • 備份線上 PDF: 可
  • 延緩載入的圖片 (lazy load images): 可
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 可
  • 保留原始網址: 可
  • 備份需登入帳號的網頁:
  • 可瀏覽別人的備份: 可
  • Robots.txt 規則:
  • 資料組織與利用:
  • API: 有 Perma.cc | Developer Docs

historio [Last visited: 2020-10-18]

  • 檔案類型: 網頁
  • 備份網頁原內嵌的圖: 否 Icon_exclaim.gif 圖使用原網站的圖檔
  • 備份線上 PDF: 否,無法備份線上 PDF
  • 延緩載入的圖片 (lazy load images):
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 可
  • 保留原始網址: 可
  • 備份需登入帳號的網頁:
  • 可瀏覽別人的備份: 可,需要先 publish
  • Robots.txt 規則:
  • 資料組織與利用:
  • API:

Time Travel 可一次尋找多個網頁備份服務,例如:Internet Archive, Archive-It, British Library, archive.today [Last visited: 2020-01-26]

(left blank intentionally)

服務名稱
* 檔案類型: 網頁、圖、PDF
* 備份網頁原內嵌的圖:
* 備份線上 PDF: 
* 延緩載入的圖片 (lazy load images): 
* 內嵌連結的文字可以點選: 
* 保留存檔日期: 
* 保留原始網址: 
* 備份需登入帳號的網頁: 
* 可瀏覽別人的備份:
* [[Robots.txt]] 規則: 
* 資料組織與利用: 
* API:

不同服務的整合試用紀錄

使用 IFTTT (IFTTT recipe: If new link post at Facebook, then save for later) 備份自己 facebook 塗鴉牆張貼的連結的網頁全文: 稍後閱讀的服務,有協助抓全文。除了 Pocket 還有 instapaper 或 readability 可以選擇。另外,如果是書籤服務 diigo 或 pinboard 的付費會員,也可以協助儲存全文。不過,嘗試將這些稍後閱讀的服務界接到 Evernote 都沒法是全文。 [Last visited: 2014-12-11]

  • 檔案類型: 網頁
  • 備份網頁原內嵌的圖: 圖會額外儲存一份
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 有
  • 保留原始網址: 有
  • 備份需登入帳號的網頁: 可
  • 可瀏覽別人的備份: 否
  • 資料組織與利用:

Pocket + Evernote 整合的試用紀錄

  1. 使用手機上的 Pocket APP 分享到 Evernote APP:Evernote 結合 Pocket,無紙化也能擁有高效率
    • 與Pocket儲存的網頁內容一致: 是
  2. 使用 IFTTT Create an Evernote when I fav an article in Pocket by neyal - IFTTT [Last visited: 2015-02-27]
    • 與Pocket儲存的網頁內容一致: 否,僅有摘要(內文的前面部分) Icon_exclaim.gif
  3. 使用 IFTTT When I favorite something in #Pocket, convert it to #PDF and put it in #Evernote by shanrep - IFTTT [Last visited: 2015-02-27]
    • PDF沒有順利產生 Icon_exclaim.gif

停止的服務:

比較不同社群網站的文章備份結果

Medium:

  • Wayback Machine:可能備份失敗,成功的備份可能缺少圖片。提供失敗[5]與成功[6]的例子。
  • Webpage archive:可能成功備份(連結),包括一例圖片模糊的[7]
  • Perma.cc:展示一個成功備份的例子
  • historio:載入備份時有數秒可以看到備份內容,但是似乎跟 CSS 衝突,所以會看到空白。使用mhtml 格式才能閱讀備份。
  • Diigo(私人存取):以mhtml格式閱讀備份的註記。

PTT:

  • Wayback Machine:提到由於成人內容警告導致的部分成功備份[8][9]
  • Webpage archive:成功備份。
  • Perma.cc:因18+警告導致備份失敗。
  • historio:成功備份。
  • Diigo(私人存取):成功備份。

Facebook:

  • Wayback Machine:即使設定為公開,備份結果顯示登入畫面。
  • Webpage archive:錯誤訊息「Not Found (yet?)」(尚未找到)
  • Perma.cc:顯示「You’re Temporarily Blocked」(您暫時被封鎖) 訊息。
  • historio:使用書籤小工具無效,備份不成功。
  • Diigo(私人存取):以mhtml格式閱讀備份。​

Dcard


YouTube

其他同類型服務或軟體

其他服務

其他同類型軟體

砍站軟體: Icon_exclaim.gif HTTrack Website Copier 和 Teleport Pro 均無法處理簡體中文的目錄名稱和檔案名稱!


類似服務評比

相關文章

References