網頁備份: Difference between revisions

From LemonWiki共筆
Jump to navigation Jump to search
Tags: Mobile edit Mobile web edit
 
(29 intermediate revisions by the same user not shown)
Line 1: Line 1:
網頁歸檔備份的工具比較。比較不同方案「內嵌連結的文字可以點選」、「保留存檔日期」、「保留原始網址」等基礎資訊是否保留? (English version: [[Archive of webpage]]) 以及資訊組織方式,例如透過標籤重新組織備份的網頁。
網頁歸檔備份的工具比較。比較不同方案「內嵌連結的文字可以點選」、「保留存檔日期」、「保留原始網址」等基礎資訊是否保留? (English version: [[Archive of webpage]]) 以及資訊組織方式,例如透過標籤重新組織備份的網頁。
{{LanguageSwitcher | content = [[Archive of webpage | EN]], [[網頁備份 | 漢字]] }}


# 免費服務: 推薦 [http://archive.is/ Archive.is] 可以同時儲存網頁內嵌的圖,如果原始網頁遺失,還能保留完整資訊。其次則是 [https://archive.org/web/ Internet Archive: Wayback Machine]。
# 免費服務: 推薦 [http://archive.is/ Archive.is] 可以同時儲存網頁內嵌的圖,如果原始網頁遺失,還能保留完整資訊。其次則是 [https://archive.org/web/ Internet Archive: Wayback Machine]。
Line 16: Line 18:
== 可「離線」瀏覽網頁存檔的方案 ==
== 可「離線」瀏覽網頁存檔的方案 ==


=== 桌面軟體 ===
{{Gd}} 瀏覽器列印成 PDF
'''比較表'''
* 檔案格式:PDF 單一檔案
{| border="1"
* 保留存檔日期: yes
| <b>核取</b> || <b>方法</b> || <b>檔案類型</b> || <b>網頁原內嵌的媒體(圖, flash等)</b> || <b>內嵌連結的文字可以點選</b> || <b>保留存檔日期</b> || <b>保留原始網址</b> || <b>備註 (資料組織與利用)</b>
* 保留原始網址: yes (列印選項,需要勾選「頁首及頁尾」,才會在頁頭頁尾顯示網頁標題、日期、網址等資訊。)
|-
* 效果:
| || [[Mozilla Firefox|Fx]] 2.0: 另存新檔(網頁,完整封裝) || html
 
|class="yes" | 另有目錄儲存
{{Gd}} [[Mozilla Firefox|Firefox]] + [https://addons.mozilla.org/zh-TW/firefox/addon/webscrapbook/ 網頁剪貼簿]
|class="yes" | yes
* 檔案格式:(1) 資料夾、(2) MAFF 封存檔、(3) HTZ 封存檔、(4) 一個網頁檔
|class="yes" | yes
* 內嵌連結的文字可以點選: yes
|class="no" | ''no''
* 保留存檔日期: yes
||
* 保留原始網址: yes
|-
 
| || Fx 2.0: 另存新檔(網頁,只存html) || html
{{Gd}} [[Mozilla Firefox|Firefox]] + [https://addons.mozilla.org/zh-TW/firefox/addon/single-file/ SingleFile 擴充套件]
|class="no" | ''無'', 未儲存
* 檔案格式: 一個網頁檔
|class="yes" | yes
* 內嵌連結的文字可以點選: yes
|class="yes" | yes
* 保留存檔日期: yes
|class="no" | ''no''
* 保留原始網址: yes
||
 
|-
[https://pdfonfly.com/html-to-pdf HTML to PDF Conversion - PDFonFly.com] 輸入HTML文字,直接轉換成PDF
| ☆ || Fx 3.6 + [https://addons.mozilla.org/en-us/firefox/addon/scrapbook/ ScrapBook] 1.3.7 || html
* 檔案格式:PDF
|class="yes" | 另有目錄儲存
* 內嵌連結的文字可以點選:
|class="yes" | yes  
* 保留存檔日期:
|class="yes" | yes*  
* 保留原始網址:
|class="yes" | yes  
 
|| 搜尋/加註解; 結合[http://amb.vis.ne.jp/mozilla/scrapbook/addons.php?lang=en#ScrapBox ScrapBox.net]可上傳至網路儲存空間, 詳[http://blog.bobchao.net/2007/01/firefox-scrapbook.html bobchao說明] (網頁相關檔案數若太多,上傳時間較久)
 
|-
[https://chrome.google.com/webstore/detail/mhabjpofjblpelkgmllkpcnlhgjpebko?hl=zh-TW# iWeb2x] for {{Chrome}}
| ☆ || {{Fx}} v.15 + [http://maf.mozdev.org/ MAF] 2.x: Save as MAFF MHT Archive || mht
* 檔案格式:PDF 或圖片
|class="yes" | 內嵌在單一檔案內
* 內嵌連結的文字可以點選: yes
|class="yes" | yes
* 保留存檔日期: no
|class="yes" | yes
* 保留原始網址: no
|class="yes"| yes
 
||
[http://www.sciweavers.org/free-online-html-to-pdf iWeb2Print]{{access | date = 2010-03-15 }} 教學:[http://briian.com/?p=7492 iWeb2Print 把你喜歡的網頁文章存成PDF檔]
|-
* 檔案格式:
| || Fx 2.0 + [http://www.google.com/tools/firefox/toolbar/FT3/intl/en/ Google Toolbar for Firefox] 3: Send with Gmail || html
* 內嵌連結的文字可以點選: yes
|class="no" |''無'', 使用原媒體的網址
* 保留存檔日期: no
|class="yes" | yes  
* 保留原始網址: no
|class="yes" | yes  
|class="yes"| yes  
|| 搜尋/加標籤(label)
|-
| ☆ || [http://www.zotero.org/ Zotero] 3.x for {{Fx}} v.10 || html
|class="yes" | 另有目錄儲存(不儲外連的CSS檔)
|class="yes" | yes
|class="yes" | yes*  
|class="yes"| yes
|| 搜尋/ 分類/標籤(tag)/ 加註解/ [[Citation format|書目格式輸出]]
|-
| ☆ || [http://www.microsoft.com/windows/ie/ IE] 6.0.x: Save as MHT || mht
|class="yes" | 內嵌在單一檔案內
|class="yes" | yes
|class="yes" | yes
|class="yes" | yes
||
|-
| || [[Acrobat PDFMaker]] 7.0.5 || pdf
|class="yes" | 內嵌在單一檔案內
|class="yes" | yes  
|class="yes" | yes
|class="yes" | yes
||
|-
| || 列印到 Adobe Acrobat Printer虛擬印表機 || pdf
|class="yes" | 內嵌在單一檔案內
|class="no" |''no''
|class="yes" | yes
|class="yes" | yes
||
|-
| || [http://www.google.com/chrome/ Google chrome瀏覽器] v.53+ <br />列印 -> 另存為PDF
|| pdf
|class="yes" | 內嵌在單一檔案內
|class="no" | yes
|class="no" | yes
|class="no" | yes
|| 列印選項,需要勾選「頁首及頁尾」,才會在頁頭頁尾顯示網頁標題、日期、網址等資訊。
|-
| || Microsoft Edge <br />列印 -> Microsoft Print to PDF
|| pdf  
|class="yes" | 內嵌在單一檔案內
|class="no" | yes
|class="no" | yes
|class="no" | yes
|| 列印選項,需要開啟「頁首及頁尾」,才會在頁頭頁尾顯示網頁標題、日期、網址等資訊。
|-
| || 列印到 [http://www.pdffactory.com/ pdfFactory Pro] v2.45 虛擬印表機 || pdf
|class="yes" | 內嵌在單一檔案內
|class="no" | ''no''
|class="yes" | yes  
|class="yes" | yes
||
|-
| || IE + [http://www.adobe.com/products/acrobat/main.html Adobe Acrobat 7]: 直接轉換網頁為PDF || pdf
|class="yes" | 內嵌在單一檔案內
|class="yes" |yes
|class="yes" | yes
|class="no" | ''no''
||
|-
| || [http://unipage.org/index.html Unipage Unifier] 1.0 RC3(網頁完整封裝)([http://toget.pchome.com.tw/intro/network_www/network_www_offline/25061.html 中文說明]) || html
|class="yes" | 內嵌在單一檔案內
|class="yes" |yes
|class="yes" | yes
|class="no" | ''no''
||
|-
|}


=== 線上網頁轉檔成PDF服務 ===
[https://www.web2pdfconvert.com/ Convert Web Page to PDF for Free Online - #1 Web to PDF Converter]
* 檔案格式:PDF
* 保留存檔日期: yes ((檔案 metadata)
* 保留原始網址: yes (檔案 metadata)


{| border="1"
[https://chrome.google.com/webstore/detail/mhabjpofjblpelkgmllkpcnlhgjpebko?hl=zh-TW# iWeb2x] for {{Chrome}}
| <b>核取</b> || <b>方法</b> || <b>檔案類型</b> || <b>網頁原內嵌的媒體(圖, flash等)</b> || <b>內嵌連結的文字可以點選</b> || <b>保留存檔日期</b> || <b>保留原始網址</b> || <b>資料組織與利用</b>
* 檔案格式:PDF 或圖片
|-
* 內嵌連結的文字可以點選: yes
| || [http://www.pdfdownload.org/free-html-to-pdf.aspx Convert Web/HTML to PDF Free Online by Nitro PDF Software] 線上直接轉換網頁為PDF  || pdf
* 保留存檔日期: no
|class="yes" | 內嵌在單一檔案內
* 保留原始網址: no
|class="yes" |yes
|class="yes" | yes
|class="no" | ''no''
|| last visited: 2009-03-29
|-
| || [http://www.web2pdfconvert.com/ Web2PDF] 線上直接轉換網頁為PDF  || pdf
|class="yes" | 內嵌在單一檔案內
|class="yes" |yes
|class="no" | ''no''
|class="no" | ''no''
|| last visited: 2010-07-24
|-
| || [http://html-pdf-converter.com/ PDF Converter, HTML to PDF Converter For Free]線上直接轉換網頁為PDF  || pdf
|class="yes" | 內嵌在單一檔案內
|class="no" | no
|class="yes" | yes
|class="no" | ''no''
|| last visited: 2009-06-02
|-
| || [http://toki-woki.net/p/WebKut/ WebKut]([http://blog.corausir.org/programing/ausir-889/comment-page-1 中文說明]) 直接轉換網頁或選取網頁區域為PDF  || pdf
|class="yes" | 內嵌在單一檔案內
|class="no" | no
|class="yes" | yes
|class="no" | ''no''
|| last visited: 2009-04-02
|-
|}


其他
[https://www.zotero.org/ Zotero | Your personal research assistant] + [https://www.zotero.org/download/ Zotero Connector]
* [https://chrome.google.com/webstore/detail/mhabjpofjblpelkgmllkpcnlhgjpebko?hl=zh-TW# iWeb2x] for {{Chrome}}
* 檔案格式:網頁 (圖檔遺失)
** 內嵌連結的文字可以點選: yes
* 內嵌連結的文字可以點選: yes
** 保留存檔日期: no
* 保留存檔日期: yes
** 保留原始網址: no
* 保留原始網址: yes
* [http://www.pdfonfly.com/create-pdf.asp Create PDF Online - HTML to PDF Conversion] 輸入HTML文字,直接轉換成PDF
* [http://www.sciweavers.org/free-online-html-to-pdf iWeb2Print]{{access | date = 2010-03-15 }} 教學:[http://briian.com/?p=7492 iWeb2Print 把你喜歡的網頁文章存成PDF檔]
** 內嵌連結的文字可以點選: yes
** 保留存檔日期: no
** 保留原始網址: no


[[Mozilla Firefox|Firefox]] v. 102.0: 另存新檔(網頁,完整封裝)
* 檔案格式:網頁 + 相關圖片 檔案
* 保留存檔日期: yes
* 保留原始網址: yes (檔案 metadata 內的來源欄位,有紀錄原始網址)
* 效果: 部分圖片可能無法顯示 {{exclaim}}


* 桌面軟體可結合[[Desktop search]]建立索引檔,利於再使用。
{{Fx}} v.15 + [https://addons.thunderbird.net/zh-tw/firefox/addon/mozilla-archive-format/?src=search Mozilla Archive Format, with MHT and Faithful Save :: Firefox 附加元件]([http://maf.mozdev.org/ MAF]) 2.x: Save as MAFF MHT Archive
* 檔案格式:mht 單一檔案
* 保留存檔日期: yes
* 保留原始網址: yes
* 效果: 新版 Firefox v. 102.0 已經不支援該擴充套件  {{exclaim}}


=== 備份網頁畫面圖檔 ===
=== 備份網頁畫面圖檔 ===
Line 182: Line 94:
書籤網站或線上備份網頁的服務列表與比較
書籤網站或線上備份網頁的服務列表與比較


==== A: Archive.is ====
{{Gd}} [http://archive.is/ Archive.is - webpage capture] {{access | date = 2017-11-18}}
{{Gd}} [http://archive.is/ Archive.is - webpage capture] {{access | date = 2017-11-18}}
* 檔案類型: 網頁 (例: [http://archive.is/B0qhH 維基百科的備份])、網頁樣式 {{Gd}}
* 檔案類型: 網頁 (例: [http://archive.is/B0qhH 維基百科的備份])、網頁樣式 {{Gd}}
Line 196: Line 109:
* 備註: (1) PTT 可能會備份失敗[https://archive.is/www.ptt.cc],備份到電腦網路內容分級的畫面 ([https://archive.is/ODmrW#selection-23.3-23.11 ex])。 (2) 如果是需要捲動網頁,才能看到的圖,備份的網頁可以順利顯示圖 [https://archive.is/R7oe4/4b913063476a2a08ad41243f3052f39edf3be731]
* 備註: (1) PTT 可能會備份失敗[https://archive.is/www.ptt.cc],備份到電腦網路內容分級的畫面 ([https://archive.is/ODmrW#selection-23.3-23.11 ex])。 (2) 如果是需要捲動網頁,才能看到的圖,備份的網頁可以順利顯示圖 [https://archive.is/R7oe4/4b913063476a2a08ad41243f3052f39edf3be731]


[http://www.justaple.com/index.html Justaple] {{access | date = 2017-11-18}}
==== D: Diigo ====
* 檔案類型: 保存了圖片、大部分的Flash、網頁樣式
[http://www.diigo.com/index Diigo] ''$''<ref>[http://help.diigo.com/premium-features/Cached-page Cached pages - Diigo help]</ref> {{access | date = 2017-11-18}}
* 備份網頁原內嵌的圖: 可
* 檔案類型: 網頁、圖、PDF
* 備份線上 PDF:
* 備份網頁原內嵌的圖: 備份網頁時,預設不會儲存圖檔,需要手動逐張儲存圖片至Diigo
* 備份線上 PDF: 可
* 延緩載入的圖片 (lazy load images) : 可,圖片順利儲存
* 內嵌連結的文字可以點選: 可
* 保留存檔日期: 有
* 保留原始網址: 有
* 備份需登入帳號的網頁: 不可
* 可瀏覽別人的備份: ''$'' 不可,並保留不同時間儲存的備份 {{Gd}}
* [[Robots.txt]] 規則: 忽略
* 資料組織與利用: 加標籤(tags) /可加註解 <br />搜尋範圍: 網頁標題、標籤、註解、網頁網址、網域、快取的網頁內文。 
 
==== E: Evernote ====
桌機版 [http://www.evernote.com/ Evernote] ''$'' {{access | date = 2018-12-06}}
* 檔案類型: 網頁、PDF
* 備份網頁原內嵌的圖: 圖會額外儲存一份。離線時,APP、桌面軟體仍可以讀取網頁圖片。 {{exclaim}}擷取的網頁版面,可能會跟原始網頁不同。
* 備份線上 PDF:
* 延緩載入的圖片 (lazy load images) : 可,圖片順利儲存
* 延緩載入的圖片 (lazy load images) : 可,圖片順利儲存
* 內嵌連結的文字可以點選: 可
* 內嵌連結的文字可以點選: 可
* 保留存檔日期:
* 保留存檔日期: 可。 查看方式: 檢視儲存的筆記: View note info --> Created (time)
* 保留原始網址:
* 保留原始網址: 可。 查看方式: 檢視儲存的筆記: View note info --> URL
* 備份需登入帳號的網頁:  
* 備份需登入帳號的網頁: 桌機版可 {{Gd}}、手機版不可
* 可瀏覽別人的備份:
* 可瀏覽別人的備份: 部分可 (需別人授權)
* [[Robots.txt]] 規則:
* [[Robots.txt]] 規則: 忽略
* 資料組織與利用: 資料夾方式組織; 僅能有20個不公開的網頁存檔; iPhone app提供離線瀏覽功能 (access: 2011-10-27)
* 資料組織與利用: (1) 搜尋內文、圖內文字(''$'') (2) 加標籤(tags) /可加註解 (3) 安裝桌面端軟體便可離線 (4) 複合書籤搜尋: 有。例如: 輸入 {{kbd | key=<nowiki>tag:TAG1 tag:TAG2 keywords</nowiki>}} 搜尋同時標籤 ''TAG1'' 和 ''TAG2'' ,並且包含關鍵字 ''keywords'' 的記事內容。


[http://getpocket.com Pocket] {{access | date = 2017-11-18}}
==== G: Google cache ====
Google 庫存頁面
* 檔案類型: 網頁
* 檔案類型: 網頁
* 網頁原內嵌的媒體(圖, flash等): 圖會額外儲存一份。離線時,APP仍可以讀取網頁圖片。 {{exclaim}}擷取的網頁版面,可能會跟原始網頁不同。{{exclaim}} 付費會員才會有永久備份
* 備份網頁原內嵌的圖: 否,使用原本網頁的圖片
* 備份線上 PDF:
* 保留存檔日期:
* 延緩載入的圖片 (lazy load images) : 圖片沒有儲存 {{exclaim}}
* 內嵌連結的文字可以點選: 可
* 保留存檔日期: 否 {{exclaim}}
* 保留原始網址: 有
* 保留原始網址: 有
* 可瀏覽別人的備份: 否。發現 ptt 的文章雖然已經移除,但是加到 Pocket 後,還可以順利看到網頁,所以可能是不同使用者共用同一份網頁備份。
* [[Robots.txt]] 規則: 忽略
* 資料組織與利用: (1)可以下 tag ,但是不建議在這個服務作組織分類,單純作為未讀文章列表的用途 (2)搜尋標題或網址、網域 (3) 複合書籤搜尋:  [http://help.getpocket.com/customer/portal/articles/1564293-pocket-premium-full-text-search 有]''$''


[https://archive.org/web/ Internet Archive: Wayback Machine] {{access | date = 2017-11-18}}
<syntaxhighlight lang="JavaScript">
* 檔案類型: 網頁、部分網頁樣式,導致版面可能跟原本的不同
javascript:(function(){if(location.href.indexOf('http')!=0){input=prompt('URL:','http://');if(input!=null){location.href='https://webcache.googleusercontent.com/search?q=cache:'+input}}else{location.href='https://webcache.googleusercontent.com/search?q=cache:'+location.href;}})();
* 備份網頁原內嵌的圖: 否
</syntaxhighlight>
* 備份線上 PDF:
 
* 延緩載入的圖片 (lazy load images) : 部分圖片沒有儲存 {{exclaim}}
==== H: historio ====
[https://historio.us/ historio] {{access | date = 2020-10-18}}  
* 檔案類型: 網頁
* 備份網頁原內嵌的圖: 否 {{exclaim}} 圖使用原網站的圖檔
* 備份線上 PDF: 否,無法備份線上 PDF
* 延緩載入的圖片 (lazy load images):  
* 內嵌連結的文字可以點選: 可
* 內嵌連結的文字可以點選: 可
* 保留存檔日期: 可
* 保留存檔日期: 可
* 保留原始網址: 可
* 保留原始網址: 可
* 備份需登入帳號的網頁:
* 備份需登入帳號的網頁:  
* 可瀏覽別人的備份:
* 可瀏覽別人的備份: 可,需要先 publish
* 資料組織與利用: 可搜尋網址、不可搜尋網域對應的網頁。查詢語法<ref>https://zh.wikipedia.org/wiki/Wikipedia:%E4%BD%BF%E7%94%A8%E6%97%B6%E5%85%89%E6%9C%BA</ref>: <pre>javascript:location.href=%22http://web.archive.org/web/*/%22+location.href; 或 javascript:void(window.open('https://web.archive.org/web/*/'+location.href));</pre>
* [[Robots.txt]] 規則:  
* 備註: PTT 可能會備份失敗,備份到電腦網路內容分級的畫面
* 資料組織與利用:  
* API:


''服務暫停'' [http://www.webcitation.org/index WebCite] {{access | date = 2017-11-18}}
* 檔案類型: 網頁 (例: [http://www.webcitation.org/64fUtAo8R 維基百科的備份])
* 備份線上 PDF:
* 備份網頁原內嵌的圖: ''無'', 使用原媒體的網址
* 延緩載入的圖片 (lazy load images) :
* 內嵌連結的文字可以點選: 可
* 保留存檔日期: 有
* 保留原始網址: 有, 可瀏覽不同時間的備份
* 備份需登入帳號的網頁: 不可
* 可瀏覽別人的備份: 可
* [[Robots.txt]] 規則: 遵守
* 資料組織與利用: 可 [http://www.webcitation.org/query 搜尋網址的備份],查詢語法 http://www.webcitation.org/query.php?url=網址  ([http://www.webcitation.org/query.php?url=http://blog.pixnet.net/post/admin/3240566 ex]) The bookmarklet was as follows:<pre>javascript:location.href=%22http://www.webcitation.org/query.php?url=%22+location.href;</pre>;不可搜尋相同網域的備份。


==== I: Instapaper ====
[https://www.instapaper.com/ Instapaper] {{access | date = 2017-11-18}}
[https://www.instapaper.com/ Instapaper] {{access | date = 2017-11-18}}
* 檔案類型: 網頁
* 檔案類型: 網頁
Line 260: Line 178:
* 資料組織與利用:  
* 資料組織與利用:  


[https://www.notion.so/ notion.so]: [https://chrome.google.com/webstore/detail/notion-web-clipper/knheggckgoiihginacbkhaalnibhilkk Notion Web Clipper - Chrome 線上應用程式商店] {{chrome}} {{access | date = 2019-11-05}}
* 檔案類型: 網頁、PDF
* 備份網頁原內嵌的圖: 圖會額外儲存一份。離線時,APP、桌面軟體仍可以讀取網頁圖片。
* 備份線上 PDF: 不可
* 延緩載入的圖片 (lazy load images) :
* 內嵌連結的文字可以點選: 可
* 保留存檔日期: 可。 查看方式: 檢視儲存的筆記: 可
* 保留原始網址: 可。 查看方式: 檢視儲存的筆記: 可
* 備份需登入帳號的網頁: 否 {{exclaim}}
* 可瀏覽別人的備份: 部分可 (需別人授權)
* [[Robots.txt]] 規則:
* 資料組織與利用:


 
==== J: Justaple ====
桌機版 [http://www.evernote.com/ Evernote] ''$'' {{access | date = 2018-12-06}}
[http://www.justaple.com/index.html Justaple] {{access | date = 2017-11-18}}
* 檔案類型: 網頁、PDF
* 檔案類型: 保存了圖片、大部分的Flash、網頁樣式
* 備份網頁原內嵌的圖: 圖會額外儲存一份。離線時,APP、桌面軟體仍可以讀取網頁圖片。 {{exclaim}}擷取的網頁版面,可能會跟原始網頁不同。
* 備份網頁原內嵌的圖:
* 備份線上 PDF:
* 備份線上 PDF:
* 延緩載入的圖片 (lazy load images) : 可,圖片順利儲存
* 延緩載入的圖片 (lazy load images) : 可,圖片順利儲存
* 內嵌連結的文字可以點選: 可
* 保留存檔日期: 可。 查看方式: 檢視儲存的筆記: View note info --> Created (time)
* 保留原始網址: 可。 查看方式: 檢視儲存的筆記: View note info --> URL
* 備份需登入帳號的網頁: 桌機版可 {{Gd}}、手機版不可
* 可瀏覽別人的備份: 部分可 (需別人授權)
* [[Robots.txt]] 規則: 忽略
* 資料組織與利用: (1) 搜尋內文、圖內文字(''$'') (2) 加標籤(tags) /可加註解 (3) 安裝桌面端軟體便可離線 (4) 複合書籤搜尋: 有。例如: 輸入 {{kbd | key=<nowiki>tag:TAG1 tag:TAG2 keywords</nowiki>}} 搜尋同時標籤 ''TAG1'' 和 ''TAG2'' ,並且包含關鍵字 ''keywords'' 的記事內容。
[http://www.diigo.com/index Diigo] ''$''<ref>[http://help.diigo.com/premium-features/Cached-page Cached pages - Diigo help]</ref> {{access | date = 2017-11-18}}
* 檔案類型: 網頁、圖、PDF
* 備份網頁原內嵌的圖: 備份網頁時,預設不會儲存圖檔,需要手動逐張儲存圖片至Diigo
* 備份線上 PDF: 可
* 延緩載入的圖片 (lazy load images) : 可,圖片順利儲存
* 內嵌連結的文字可以點選: 可
* 保留存檔日期: 有
* 保留原始網址: 有
* 備份需登入帳號的網頁: 不可
* 可瀏覽別人的備份: ''$'' 不可,並保留不同時間儲存的備份 {{Gd}}
* [[Robots.txt]] 規則: 忽略
* 資料組織與利用: 加標籤(tags) /可加註解 <br />搜尋範圍: 網頁標題、標籤、註解、網頁網址、網域、快取的網頁內文。 
[http://pinboard.in/ Pinboard] ''$''  {{access | date = 2017-11-18}}
* 檔案類型: 網頁
* 備份網頁原內嵌的圖: 可。保存了圖片、網頁樣式(每個網頁32MB大小限制) {{Gd}}
* 備份線上 PDF:
* 延緩載入的圖片 (lazy load images) :
* 備份網頁原內嵌的圖:
* 內嵌連結的文字可以點選: 可
* 內嵌連結的文字可以點選: 可
* 保留存檔日期: 可
* 保留存檔日期: 可
* 保留原始網址: 可
* 保留原始網址: 可
* 備份需登入帳號的網頁: 不可
* 備份需登入帳號的網頁:  
* 可瀏覽別人的備份: 不可。只會留一份備份。 {{exclaim}}
* 可瀏覽別人的備份:
* [[Robots.txt]] 規則:  
* [[Robots.txt]] 規則:
* 資料組織與利用: 標籤; 搜尋範圍: 網頁標題、標籤、註解、快取的網頁內文、[http://pinboard.in/url 網頁網址](bug)。 [[Image:Icon exclaim.gif| ]]不包含網頁網址。
* 資料組織與利用: 資料夾方式組織; 僅能有20個不公開的網頁存檔; iPhone app提供離線瀏覽功能 (access: 2011-10-27)


==== M: megalodon ====
[http://megalodon.jp/ ウェブ魚拓] (megalodon) {{access | date = 2017-11-18}}
[http://megalodon.jp/ ウェブ魚拓] (megalodon) {{access | date = 2017-11-18}}
* 檔案類型: 網頁
* 檔案類型: 網頁
Line 326: Line 206:
* [[Robots.txt]] 規則:  
* [[Robots.txt]] 規則:  
* 資料組織與利用: 可搜尋網址的備份,查詢語法 <nowiki>http://megalodon.jp/?url=網址</nowiki> e.g. [http://megalodon.jp/?url=http%3A%2F%2Ftw.yahoo.com]
* 資料組織與利用: 可搜尋網址的備份,查詢語法 <nowiki>http://megalodon.jp/?url=網址</nowiki> e.g. [http://megalodon.jp/?url=http%3A%2F%2Ftw.yahoo.com]
==== N: Notion, NTUWAS ====
[https://www.notion.so/ notion.so]: [https://chrome.google.com/webstore/detail/notion-web-clipper/knheggckgoiihginacbkhaalnibhilkk Notion Web Clipper - Chrome 線上應用程式商店] {{chrome}} {{access | date = 2019-11-05}}
* 檔案類型: 網頁、PDF
* 備份網頁原內嵌的圖: 圖會額外儲存一份。離線時,APP、桌面軟體仍可以讀取網頁圖片。
* 備份線上 PDF: 不可
* 延緩載入的圖片 (lazy load images) :
* 內嵌連結的文字可以點選: 可
* 保留存檔日期: 可。 查看方式: 檢視儲存的筆記: 可
* 保留原始網址: 可。 查看方式: 檢視儲存的筆記: 可
* 備份需登入帳號的網頁: 否 {{exclaim}}
* 可瀏覽別人的備份: 部分可 (需別人授權)
* [[Robots.txt]] 規則:
* 資料組織與利用:


[http://webarchive.lib.ntu.edu.tw/default.asp Web Archive -- 國立臺灣大學網站典藏庫(NTU Web Archiving System, NTUWAS)] {{access | date = 2018-03-25}} {{exclaim}} 由台大決定哪些網站要備份
[http://webarchive.lib.ntu.edu.tw/default.asp Web Archive -- 國立臺灣大學網站典藏庫(NTU Web Archiving System, NTUWAS)] {{access | date = 2018-03-25}} {{exclaim}} 由台大決定哪些網站要備份
Line 339: Line 234:
* [[Robots.txt]] 規則:  
* [[Robots.txt]] 規則:  
* 資料組織與利用:  
* 資料組織與利用:  
==== O: OneNote ====


[https://onedrive.live.com/ Microsoft OneNote Online] {{access | date = 2018-09-15}}  
[https://onedrive.live.com/ Microsoft OneNote Online] {{access | date = 2018-09-15}}  
Line 352: Line 249:
* [[Robots.txt]] 規則: 忽略
* [[Robots.txt]] 規則: 忽略
* 資料組織與利用: 筆記本、節
* 資料組織與利用: 筆記本、節
==== P: Pinboard, Perma, Pocket ====
[http://pinboard.in/ Pinboard] ''$''  {{access | date = 2017-11-18}}
* 檔案類型: 網頁
* 備份網頁原內嵌的圖: 可。保存了圖片、網頁樣式(每個網頁32MB大小限制) {{Gd}}
* 備份線上 PDF:
* 延緩載入的圖片 (lazy load images) :
* 備份網頁原內嵌的圖:
* 內嵌連結的文字可以點選: 可
* 保留存檔日期: 可
* 保留原始網址: 可
* 備份需登入帳號的網頁: 不可
* 可瀏覽別人的備份: 不可。只會留一份備份。 {{exclaim}}
* [[Robots.txt]] 規則:
* 資料組織與利用: 標籤; 搜尋範圍: 網頁標題、標籤、註解、快取的網頁內文、[http://pinboard.in/url 網頁網址](bug)。 [[Image:Icon exclaim.gif| ]]不包含網頁網址。


[https://perma.cc/ Perma.cc] ([https://perma.cc/BM2W-X62C example]) {{access | date = 2020-10-18}}  
[https://perma.cc/ Perma.cc] ([https://perma.cc/BM2W-X62C example]) {{access | date = 2020-10-18}}  
Line 366: Line 279:
* 資料組織與利用:  
* 資料組織與利用:  
* API: 有 [https://perma.cc/docs/developer Perma.cc | Developer Docs]
* API: 有 [https://perma.cc/docs/developer Perma.cc | Developer Docs]
[http://getpocket.com Pocket] {{access | date = 2017-11-18}}
* 檔案類型: 網頁
* 網頁原內嵌的媒體(圖, flash等): 圖會額外儲存一份。離線時,APP仍可以讀取網頁圖片。 {{exclaim}} 擷取的網頁版面,可能會跟原始網頁不同。{{exclaim}} 付費會員才會有永久備份
* 備份線上 PDF:
* 延緩載入的圖片 (lazy load images) : 圖片沒有儲存 {{exclaim}}
* 內嵌連結的文字可以點選: 可
* 保留存檔日期: 有
* 保留原始網址: 有
* 可瀏覽別人的備份: 否。發現 ptt 的文章雖然已經移除,但是加到 Pocket 後,還可以順利看到網頁,所以可能是不同使用者共用同一份網頁備份。
* [[Robots.txt]] 規則: 忽略
* 匯出:匯出功能不包含網頁文字<ref>[https://support.mozilla.org/en-US/kb/exporting-your-pocket-list Exporting your Pocket saves | Pocket Help]</ref>,需要手動將逐一個別網頁另存檔案。
* 資料組織與利用: (1)可以下 tag ,但是不建議在這個服務作組織分類,單純作為未讀文章列表的用途 (2)搜尋標題或網址、網域 (3) 複合書籤搜尋:  [http://help.getpocket.com/customer/portal/articles/1564293-pocket-premium-full-text-search 有]''$''
==== W: Wayback Machine ====
[https://archive.org/web/ Internet Archive: Wayback Machine]  {{access | date = 2017-11-18}}
* 檔案類型: 網頁、部分網頁樣式,導致版面可能跟原本的不同
* 備份網頁原內嵌的圖: 否
* 備份線上 PDF:
* 延緩載入的圖片 (lazy load images) : 部分圖片沒有儲存 {{exclaim}}
* 內嵌連結的文字可以點選: 可
* 保留存檔日期: 可
* 保留原始網址: 可
* 備份需登入帳號的網頁: 否
* 可瀏覽別人的備份: 可
* 資料組織與利用: 可搜尋網址、不可搜尋網域對應的網頁。查詢語法<ref>https://zh.wikipedia.org/wiki/Wikipedia:%E4%BD%BF%E7%94%A8%E6%97%B6%E5%85%89%E6%9C%BA</ref><ref>[https://gist.github.com/n-st/0dd03b2323e7f9acd98e Bookmarklet to view current page on the Internet Archive Wayback Machine (https://archive.org/)]</ref>: <pre>javascript:location.href=%22http://web.archive.org/web/*/%22+location.href; 或 javascript:void(window.open('https://web.archive.org/web/*/'+location.href));</pre>
* 備註: PTT 可能會備份失敗,備份到電腦網路內容分級的畫面
''服務暫停'' [http://www.webcitation.org/index WebCite] {{access | date = 2017-11-18}}
* 檔案類型: 網頁 (例: [http://www.webcitation.org/64fUtAo8R 維基百科的備份])
* 備份線上 PDF:
* 備份網頁原內嵌的圖: ''無'', 使用原媒體的網址
* 延緩載入的圖片 (lazy load images) :
* 內嵌連結的文字可以點選: 可
* 保留存檔日期: 有
* 保留原始網址: 有, 可瀏覽不同時間的備份
* 備份需登入帳號的網頁: 不可
* 可瀏覽別人的備份: 可
* [[Robots.txt]] 規則: 遵守
* 資料組織與利用: 可 [http://www.webcitation.org/query 搜尋網址的備份],查詢語法 http://www.webcitation.org/query.php?url=網址  ([http://www.webcitation.org/query.php?url=http://blog.pixnet.net/post/admin/3240566 ex]) The bookmarklet was as follows:<pre>javascript:location.href=%22http://www.webcitation.org/query.php?url=%22+location.href;</pre>;不可搜尋相同網域的備份。


[http://timetravel.mementoweb.org/ Time Travel] 可一次尋找多個網頁備份服務,例如:Internet Archive, Archive-It, British Library, archive.today {{access | date = 2020-01-26}}  
[http://timetravel.mementoweb.org/ Time Travel] 可一次尋找多個網頁備份服務,例如:Internet Archive, Archive-It, British Library, archive.today {{access | date = 2020-01-26}}  
Line 410: Line 367:
* [https://www.readability.com/ A Free Web & Mobile App for Reading Comfortably — Readability]
* [https://www.readability.com/ A Free Web & Mobile App for Reading Comfortably — Readability]


== 比較備份結果 ==
== 比較不同社群網站的文章備份結果 ==
<table border="1">
 
<tr><th>備份服務</th>
Medium:
<th>Medium</th>
 
<th>PTT</th>
* [https://web.archive.org/ Wayback Machine]:可能備份成功文字而缺少圖片。提供失敗[https://web.archive.org/web/*/https://medium.com/%E5%93%88%E5%98%8D-%E4%B8%96%E7%95%8C/%E9%AB%98%E6%95%88%E5%B7%A5%E7%A8%8B%E5%B8%AB-effective-engineer-%E9%87%8D%E9%BB%9E%E7%AD%86%E8%A8%98-ca66e589653c]與成功[https://web.archive.org/web/20130915000000*/https://policy.medium.com/medium-terms-of-service-9db0094a1e0f]的例子。
<th>Facebook</th>
* [https://archive.today/ Webpage archive]:可能成功備份([https://archive.is/3qZZc 連結]),但遇過有文字但因為 Medium 需要「延緩載入的圖片」 (lazy load images) 變成模糊的例子 [https://archive.is/2017.01.29-002950/https://medium.com/@taylorhu/%E5%A5%87-app-%E5%85%B1%E8%B3%9E-%E5%A8%81%E7%A7%80%E5%BD%B1%E5%9F%8E-7d7971c5d421]。
</tr>
* [https://perma.cc/ Perma.cc]:成功備份的[https://perma.cc/BM2W-X62C 例子]。
<tr>
* [https://historio.us/ historio]:載入備份時有數秒可以看到備份內容,但是似乎跟 CSS 衝突,所以會看到空白。使用mhtml 格式才能閱讀備份。
<td>[https://web.archive.org/ Wayback Machine]</td>
* Diigo(私人存取):以mhtml格式閱讀備份的註記。
<td>可能備份失敗,失敗例子:[https://web.archive.org/web/*/https://medium.com/%E5%93%88%E5%98%8D-%E4%B8%96%E7%95%8C/%E9%AB%98%E6%95%88%E5%B7%A5%E7%A8%8B%E5%B8%AB-effective-engineer-%E9%87%8D%E9%BB%9E%E7%AD%86%E8%A8%98-ca66e589653c Wayback Machine]、成功例子:[https://web.archive.org/web/20130915000000*/https://policy.medium.com/medium-terms-of-service-9db0094a1e0f Wayback Machine]</td><td>可能備份失敗,停在18禁聲明。成功例子:[https://web.archive.org/web/20130915000000*/https://www.ptt.cc/bbs/Boy-Girl/M.1378051232.A.3E0.html Wayback Machine]</td>
 
<td></td>
PTT:
</tr>
 
<tr>
* [https://web.archive.org/ Wayback Machine]:不同看板的 18+ 政策不同,如果有 18+ 政策,就會導致無法成功備份,而顯示 18+ 警告[https://web.archive.org/web/20240209204000/https://www.ptt.cc/ask/over18?from=%2Fbbs%2FGossiping%2FM.1707508785.A.344.html]。若該看板無 18+ 政策,就可以成功備份[https://web.archive.org/web/20130915000000*/https://www.ptt.cc/bbs/Boy-Girl/M.1378051232.A.3E0.html]。
<td>[https://archive.today/ Webpage archive]</td>
* [https://archive.today/ Webpage archive]:成功備份。
<td>備份成功,成功例子: [https://archive.is/3qZZc link]</td>
* Perma.cc:因 18+ 警告導致備份失敗。
<td>備份成功</td>
* historio:成功備份。
<td></td>
* Diigo(私人存取):成功備份。
</tr>
 
<tr>
Facebook:
<td>[https://www.diigo.com/index Diigo] (private access)</td>
 
<td>mhtml 格式才能閱讀備份</td><td>備份成功</td>
* [https://web.archive.org/ Wayback Machine]:即使設定為公開,備份結果顯示登入畫面。
<td>mhtml 格式才能閱讀備份</td>
* [https://archive.today/ Webpage archive]:錯誤訊息「Not Found (yet?)」(尚未找到)
</tr>
* Perma.cc:顯示「You’re Temporarily Blocked」(您暫時被封鎖) 訊息。
</table>
* historio:使用書籤小工具無效,備份不成功。
* Diigo(私人存取):以mhtml格式閱讀備份。​
 
Dcard
* [https://web.archive.org/ Wayback Machine]:因[https://zh.wikipedia.org/zh-tw/HTTP_403 HTTP 403錯誤]導致備份失敗。
* [https://archive.today/ Webpage archive]:備份失敗[https://archive.is/yEJMT]
* Diigo(私人存取):以mhtml格式閱讀備份。​
 
 
YouTube
* [https://web.archive.org/ Wayback Machine]: (1) 無法播放影片,(2) 看不到留言 [https://web.archive.org/web/*/https://www.youtube.com/watch?v=W95p-Ag4RMg]
* [https://archive.today/ Webpage archive]: (1) 無法播放影片,(2) 可看到留言 [https://archive.is/EY1ZH]
 
== 其他同類型服務或軟體 ==
其他服務
* [https://www.webarchive.org.uk/en/ukwa/index UKWA Home]


== 其他同類型軟體 ==
其他同類型軟體
* [http://www.citom.com/ 网博士(Websaver)]
* [http://www.citom.com/ 网博士(Websaver)]
* [http://fishcodelib.com/CodeLib.htm fishCode Library .NET Professional]
* [http://fishcodelib.com/CodeLib.htm fishCode Library .NET Professional]
Line 460: Line 432:
* [https://softnshare.com/%E5%B0%87%E7%80%8F%E8%A6%BD%E9%81%8E%E7%9A%84%E7%B6%B2%E9%A0%81%E5%81%9A%E6%9C%80%E5%A5%BD%E7%9A%84%E7%9F%A5%E8%AD%98%E7%AE%A1%E7%90%86/ 將瀏覽過的網頁做最好的知識管理 - Soft & Share 線上課程資訊分享]
* [https://softnshare.com/%E5%B0%87%E7%80%8F%E8%A6%BD%E9%81%8E%E7%9A%84%E7%B6%B2%E9%A0%81%E5%81%9A%E6%9C%80%E5%A5%BD%E7%9A%84%E7%9F%A5%E8%AD%98%E7%AE%A1%E7%90%86/ 將瀏覽過的網頁做最好的知識管理 - Soft & Share 線上課程資訊分享]
* [https://www.linuxjournal.com/content/downloading-entire-web-site-wget Downloading an Entire Web Site with wget | Linux Journal]
* [https://www.linuxjournal.com/content/downloading-entire-web-site-wget Downloading an Entire Web Site with wget | Linux Journal]
* [https://blog.starrocket.io/posts/internet-archive-an-universal-access-to-all-knowledge/ 把知識從殿堂中解放出來,Internet Archive 要當人類文明的檔案管理員 | Star Rocket Blog]


references
== References ==


<references/>  
<references/>  


[[Category:Software]] [[Category:PKM]] [[Category:Backup]]
[[Category:Software]] [[Category:PKM]] [[Category:Backup]]

Latest revision as of 00:30, 21 February 2024

網頁歸檔備份的工具比較。比較不同方案「內嵌連結的文字可以點選」、「保留存檔日期」、「保留原始網址」等基礎資訊是否保留? (English version: Archive of webpage) 以及資訊組織方式,例如透過標籤重新組織備份的網頁。

🌐 Switch language: EN, 漢字


  1. 免費服務: 推薦 Archive.is 可以同時儲存網頁內嵌的圖,如果原始網頁遺失,還能保留完整資訊。其次則是 Internet Archive: Wayback Machine
  2. 付費服務: 推薦 桌機版 Evernote,因為即使是需要登入帳號密碼的網頁,也可以順利擷取。如果單純備份公開網頁的書籤服務,則可以選擇 Pinboard ,加入書籤網址之後,則會自動擷取網頁內文與內嵌的圖。
  3. 桌面軟體則可使用 FIrefox 瀏覽器的 ScrapBook 套件,或者是使用 Evernote 應用程式。

比較說明[edit]

  • 「內嵌連結的文字可以點選」:這部分對其他軟體/服務多不是問題。但是PDF檔的「直接列印到PDF的虛擬印表機」的產生方式,其內嵌連結的文字是無法點選的,即導致網址資訊會消失。(除非直接寫上網址或購買Adobe Acrobat使用內建的PDFMaker)
  • 「保留存檔日期」:由於檔案本身已經內建日期屬性(在檔案的圖示上,按右鍵選「內容」,就可以看到檔案的「建立日期」),但是很容易因為儲存或FTP到不同媒體時,導致存檔日期有所變動,而Firefox + ScrapBook的方案比較好,會將這項屬性資訊額外儲存。
  • 「保留存檔日期」與「保留原始網址」:這兩項均與學術論文寫作(書目格式)有關,在論文的參考資料部分,如果有引用到網路資料,必須註明網址以及存取日期。
  • 行動性:現有可以完整封裝成單一檔案的方案,都未額外內嵌「保留存檔日期」或者會漏失一些資訊。

可「離線」瀏覽網頁存檔的方案[edit]

Good.gif 瀏覽器列印成 PDF

  • 檔案格式:PDF 單一檔案
  • 保留存檔日期: yes
  • 保留原始網址: yes (列印選項,需要勾選「頁首及頁尾」,才會在頁頭頁尾顯示網頁標題、日期、網址等資訊。)
  • 效果:

Good.gif Firefox + 網頁剪貼簿

  • 檔案格式:(1) 資料夾、(2) MAFF 封存檔、(3) HTZ 封存檔、(4) 一個網頁檔
  • 內嵌連結的文字可以點選: yes
  • 保留存檔日期: yes
  • 保留原始網址: yes

Good.gif Firefox + SingleFile 擴充套件

  • 檔案格式: 一個網頁檔
  • 內嵌連結的文字可以點選: yes
  • 保留存檔日期: yes
  • 保留原始網址: yes

HTML to PDF Conversion - PDFonFly.com 輸入HTML文字,直接轉換成PDF

  • 檔案格式:PDF
  • 內嵌連結的文字可以點選:
  • 保留存檔日期:
  • 保留原始網址:


iWeb2x for Chrome Browser chrome.png

  • 檔案格式:PDF 或圖片
  • 內嵌連結的文字可以點選: yes
  • 保留存檔日期: no
  • 保留原始網址: no

iWeb2Print[Last visited: 2010-03-15] 教學:iWeb2Print 把你喜歡的網頁文章存成PDF檔

  • 檔案格式:
  • 內嵌連結的文字可以點選: yes
  • 保留存檔日期: no
  • 保留原始網址: no

Convert Web Page to PDF for Free Online - #1 Web to PDF Converter

  • 檔案格式:PDF
  • 保留存檔日期: yes ((檔案 metadata)
  • 保留原始網址: yes (檔案 metadata)

iWeb2x for Chrome Browser chrome.png

  • 檔案格式:PDF 或圖片
  • 內嵌連結的文字可以點選: yes
  • 保留存檔日期: no
  • 保留原始網址: no

Zotero | Your personal research assistant + Zotero Connector

  • 檔案格式:網頁 (圖檔遺失)
  • 內嵌連結的文字可以點選: yes
  • 保留存檔日期: yes
  • 保留原始網址: yes

Firefox v. 102.0: 另存新檔(網頁,完整封裝)

  • 檔案格式:網頁 + 相關圖片 檔案
  • 保留存檔日期: yes
  • 保留原始網址: yes (檔案 metadata 內的來源欄位,有紀錄原始網址)
  • 效果: 部分圖片可能無法顯示 Icon_exclaim.gif

Firefox browser_firefox.png v.15 + Mozilla Archive Format, with MHT and Faithful Save :: Firefox 附加元件(MAF) 2.x: Save as MAFF MHT Archive

  • 檔案格式:mht 單一檔案
  • 保留存檔日期: yes
  • 保留原始網址: yes
  • 效果: 新版 Firefox v. 102.0 已經不支援該擴充套件 Icon_exclaim.gif

備份網頁畫面圖檔[edit]

需「維持網路連線」瀏覽網頁存檔的方案[edit]

工具列表[edit]

書籤網站或線上備份網頁的服務列表與比較

A: Archive.is[edit]

Good.gif Archive.is - webpage capture [Last visited: 2017-11-18]

  • 檔案類型: 網頁 (例: 維基百科的備份)、網頁樣式 Good.gif
  • 備份網頁原內嵌的圖: 可,圖會額外儲存一份。
  • 備份線上 PDF:
  • 延緩載入的圖片 (lazy load images) : 可,圖片順利儲存
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 有
  • 保留原始網址: 有
  • 備份需登入帳號的網頁: 不可
  • 可瀏覽別人的備份: 可
  • 資料組織與利用: 搜尋特定網址或相同網域的備份: 可 ex: 列出 tw.yahoo.com 網域的網頁備份[1]。查詢語法
    javascript:location.href=%22https://archive.is/%22+location.href;
  • Robots.txt 規則: 忽略
  • 備註: (1) PTT 可能會備份失敗[2],備份到電腦網路內容分級的畫面 (ex)。 (2) 如果是需要捲動網頁,才能看到的圖,備份的網頁可以順利顯示圖 [3]

D: Diigo[edit]

Diigo $[1] [Last visited: 2017-11-18]

  • 檔案類型: 網頁、圖、PDF
  • 備份網頁原內嵌的圖: 備份網頁時,預設不會儲存圖檔,需要手動逐張儲存圖片至Diigo
  • 備份線上 PDF: 可
  • 延緩載入的圖片 (lazy load images) : 可,圖片順利儲存
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 有
  • 保留原始網址: 有
  • 備份需登入帳號的網頁: 不可
  • 可瀏覽別人的備份: $ 不可,並保留不同時間儲存的備份 Good.gif
  • Robots.txt 規則: 忽略
  • 資料組織與利用: 加標籤(tags) /可加註解
    搜尋範圍: 網頁標題、標籤、註解、網頁網址、網域、快取的網頁內文。

E: Evernote[edit]

桌機版 Evernote $ [Last visited: 2018-12-06]

  • 檔案類型: 網頁、PDF
  • 備份網頁原內嵌的圖: 圖會額外儲存一份。離線時,APP、桌面軟體仍可以讀取網頁圖片。 https://www.planetoid.info/images/Icon_exclaim.gif擷取的網頁版面,可能會跟原始網頁不同。
  • 備份線上 PDF: 可
  • 延緩載入的圖片 (lazy load images) : 可,圖片順利儲存
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 可。 查看方式: 檢視儲存的筆記: View note info --> Created (time)
  • 保留原始網址: 可。 查看方式: 檢視儲存的筆記: View note info --> URL
  • 備份需登入帳號的網頁: 桌機版可 https://www.planetoid.info/images/Good.gif、手機版不可
  • 可瀏覽別人的備份: 部分可 (需別人授權)
  • Robots.txt 規則: 忽略
  • 資料組織與利用: (1) 搜尋內文、圖內文字($) (2) 加標籤(tags) /可加註解 (3) 安裝桌面端軟體便可離線 (4) 複合書籤搜尋: 有。例如: 輸入 tag:TAG1 tag:TAG2 keywords 搜尋同時標籤 TAG1TAG2 ,並且包含關鍵字 keywords 的記事內容。

G: Google cache[edit]

Google 庫存頁面

  • 檔案類型: 網頁
  • 備份網頁原內嵌的圖: 否,使用原本網頁的圖片
  • 保留存檔日期: 有
  • 保留原始網址: 有
javascript:(function(){if(location.href.indexOf('http')!=0){input=prompt('URL:','http://');if(input!=null){location.href='https://webcache.googleusercontent.com/search?q=cache:'+input}}else{location.href='https://webcache.googleusercontent.com/search?q=cache:'+location.href;}})();

H: historio[edit]

historio [Last visited: 2020-10-18]

  • 檔案類型: 網頁
  • 備份網頁原內嵌的圖: 否 Icon_exclaim.gif 圖使用原網站的圖檔
  • 備份線上 PDF: 否,無法備份線上 PDF
  • 延緩載入的圖片 (lazy load images):
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 可
  • 保留原始網址: 可
  • 備份需登入帳號的網頁:
  • 可瀏覽別人的備份: 可,需要先 publish
  • Robots.txt 規則:
  • 資料組織與利用:
  • API:


I: Instapaper[edit]

Instapaper [Last visited: 2017-11-18]

  • 檔案類型: 網頁
  • 備份網頁原內嵌的圖: 否
  • 備份線上 PDF:
  • 延緩載入的圖片 (lazy load images) : 可,圖片順利儲存
  • 內嵌連結的文字可以點選:
  • 保留存檔日期: 有
  • 保留原始網址: 有
  • 備份需登入帳號的網頁:
  • 可瀏覽別人的備份: 否
  • Robots.txt 規則:
  • 資料組織與利用:


J: Justaple[edit]

Justaple [Last visited: 2017-11-18]

  • 檔案類型: 保存了圖片、大部分的Flash、網頁樣式
  • 備份網頁原內嵌的圖: 可
  • 備份線上 PDF:
  • 延緩載入的圖片 (lazy load images) : 可,圖片順利儲存
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 可
  • 保留原始網址: 可
  • 備份需登入帳號的網頁:
  • 可瀏覽別人的備份:
  • Robots.txt 規則:
  • 資料組織與利用: 資料夾方式組織; 僅能有20個不公開的網頁存檔; iPhone app提供離線瀏覽功能 (access: 2011-10-27)

M: megalodon[edit]

ウェブ魚拓 (megalodon) [Last visited: 2017-11-18]

  • 檔案類型: 網頁
  • 備份網頁原內嵌的圖: 可。保存了圖片、網頁樣式
  • 備份線上 PDF:
  • 延緩載入的圖片 (lazy load images) : 可,圖片順利儲存
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 可
  • 保留原始網址: 可
  • 備份需登入帳號的網頁:
  • 可瀏覽別人的備份: 可
  • Robots.txt 規則:
  • 資料組織與利用: 可搜尋網址的備份,查詢語法 http://megalodon.jp/?url=網址 e.g. [4]


N: Notion, NTUWAS[edit]

notion.so: Notion Web Clipper - Chrome 線上應用程式商店 Chrome Browser chrome.png [Last visited: 2019-11-05]

  • 檔案類型: 網頁、PDF
  • 備份網頁原內嵌的圖: 圖會額外儲存一份。離線時,APP、桌面軟體仍可以讀取網頁圖片。
  • 備份線上 PDF: 不可
  • 延緩載入的圖片 (lazy load images) :
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 可。 查看方式: 檢視儲存的筆記: 可
  • 保留原始網址: 可。 查看方式: 檢視儲存的筆記: 可
  • 備份需登入帳號的網頁: 否 Icon_exclaim.gif
  • 可瀏覽別人的備份: 部分可 (需別人授權)
  • Robots.txt 規則:
  • 資料組織與利用:

Web Archive -- 國立臺灣大學網站典藏庫(NTU Web Archiving System, NTUWAS) [Last visited: 2018-03-25] Icon_exclaim.gif 由台大決定哪些網站要備份

  • 檔案類型: 網頁
  • 備份網頁原內嵌的圖: 可。保存了圖片、網頁樣式
  • 備份線上 PDF:
  • 延緩載入的圖片 (lazy load images):
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 可
  • 保留原始網址: 可
  • 備份需登入帳號的網頁:
  • 可瀏覽別人的備份:
  • Robots.txt 規則:
  • 資料組織與利用:

O: OneNote[edit]

Microsoft OneNote Online [Last visited: 2018-09-15]

  • 檔案類型: 網頁、圖、PDF 都可
  • 備份網頁原內嵌的圖: 可
  • 備份線上 PDF:
  • 延緩載入的圖片 (lazy load images):
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 可
  • 保留原始網址: 否 Icon_exclaim.gif
  • 備份需登入帳號的網頁: 否
  • 可瀏覽別人的備份: 否
  • Robots.txt 規則: 忽略
  • 資料組織與利用: 筆記本、節


P: Pinboard, Perma, Pocket[edit]

Pinboard $ [Last visited: 2017-11-18]

  • 檔案類型: 網頁
  • 備份網頁原內嵌的圖: 可。保存了圖片、網頁樣式(每個網頁32MB大小限制) Good.gif
  • 備份線上 PDF:
  • 延緩載入的圖片 (lazy load images) :
  • 備份網頁原內嵌的圖:
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 可
  • 保留原始網址: 可
  • 備份需登入帳號的網頁: 不可
  • 可瀏覽別人的備份: 不可。只會留一份備份。 Icon_exclaim.gif
  • Robots.txt 規則:
  • 資料組織與利用: 標籤; 搜尋範圍: 網頁標題、標籤、註解、快取的網頁內文、網頁網址(bug)。 Icon exclaim.gif不包含網頁網址。

Perma.cc (example) [Last visited: 2020-10-18]

  • 檔案類型: 網頁、圖、PDF
  • 備份網頁原內嵌的圖: 可
  • 備份線上 PDF: 可
  • 延緩載入的圖片 (lazy load images): 可
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 可
  • 保留原始網址: 可
  • 備份需登入帳號的網頁:
  • 可瀏覽別人的備份: 可
  • Robots.txt 規則:
  • 資料組織與利用:
  • API: 有 Perma.cc | Developer Docs


Pocket [Last visited: 2017-11-18]

  • 檔案類型: 網頁
  • 網頁原內嵌的媒體(圖, flash等): 圖會額外儲存一份。離線時,APP仍可以讀取網頁圖片。 Icon_exclaim.gif 擷取的網頁版面,可能會跟原始網頁不同。Icon_exclaim.gif 付費會員才會有永久備份
  • 備份線上 PDF:
  • 延緩載入的圖片 (lazy load images) : 圖片沒有儲存 Icon_exclaim.gif
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 有
  • 保留原始網址: 有
  • 可瀏覽別人的備份: 否。發現 ptt 的文章雖然已經移除,但是加到 Pocket 後,還可以順利看到網頁,所以可能是不同使用者共用同一份網頁備份。
  • Robots.txt 規則: 忽略
  • 匯出:匯出功能不包含網頁文字[2],需要手動將逐一個別網頁另存檔案。
  • 資料組織與利用: (1)可以下 tag ,但是不建議在這個服務作組織分類,單純作為未讀文章列表的用途 (2)搜尋標題或網址、網域 (3) 複合書籤搜尋: $


W: Wayback Machine[edit]

Internet Archive: Wayback Machine [Last visited: 2017-11-18]

  • 檔案類型: 網頁、部分網頁樣式,導致版面可能跟原本的不同
  • 備份網頁原內嵌的圖: 否
  • 備份線上 PDF:
  • 延緩載入的圖片 (lazy load images) : 部分圖片沒有儲存 Icon_exclaim.gif
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 可
  • 保留原始網址: 可
  • 備份需登入帳號的網頁: 否
  • 可瀏覽別人的備份: 可
  • 資料組織與利用: 可搜尋網址、不可搜尋網域對應的網頁。查詢語法[3][4]:
    javascript:location.href=%22http://web.archive.org/web/*/%22+location.href; 或 javascript:void(window.open('https://web.archive.org/web/*/'+location.href));
  • 備註: PTT 可能會備份失敗,備份到電腦網路內容分級的畫面

服務暫停 WebCite [Last visited: 2017-11-18]

  • 檔案類型: 網頁 (例: 維基百科的備份)
  • 備份線上 PDF:
  • 備份網頁原內嵌的圖: , 使用原媒體的網址
  • 延緩載入的圖片 (lazy load images) :
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 有
  • 保留原始網址: 有, 可瀏覽不同時間的備份
  • 備份需登入帳號的網頁: 不可
  • 可瀏覽別人的備份: 可
  • Robots.txt 規則: 遵守
  • 資料組織與利用: 可 搜尋網址的備份,查詢語法 http://www.webcitation.org/query.php?url=網址 (ex) The bookmarklet was as follows:
    javascript:location.href=%22http://www.webcitation.org/query.php?url=%22+location.href;
    ;不可搜尋相同網域的備份。


Time Travel 可一次尋找多個網頁備份服務,例如:Internet Archive, Archive-It, British Library, archive.today [Last visited: 2020-01-26]

(left blank intentionally)

服務名稱
* 檔案類型: 網頁、圖、PDF
* 備份網頁原內嵌的圖:
* 備份線上 PDF: 
* 延緩載入的圖片 (lazy load images): 
* 內嵌連結的文字可以點選: 
* 保留存檔日期: 
* 保留原始網址: 
* 備份需登入帳號的網頁: 
* 可瀏覽別人的備份:
* [[Robots.txt]] 規則: 
* 資料組織與利用: 
* API:

不同服務的整合試用紀錄[edit]

使用 IFTTT (IFTTT recipe: If new link post at Facebook, then save for later) 備份自己 facebook 塗鴉牆張貼的連結的網頁全文: 稍後閱讀的服務,有協助抓全文。除了 Pocket 還有 instapaper 或 readability 可以選擇。另外,如果是書籤服務 diigo 或 pinboard 的付費會員,也可以協助儲存全文。不過,嘗試將這些稍後閱讀的服務界接到 Evernote 都沒法是全文。 [Last visited: 2014-12-11]

  • 檔案類型: 網頁
  • 備份網頁原內嵌的圖: 圖會額外儲存一份
  • 內嵌連結的文字可以點選: 可
  • 保留存檔日期: 有
  • 保留原始網址: 有
  • 備份需登入帳號的網頁: 可
  • 可瀏覽別人的備份: 否
  • 資料組織與利用:

Pocket + Evernote 整合的試用紀錄

  1. 使用手機上的 Pocket APP 分享到 Evernote APP:Evernote 結合 Pocket,無紙化也能擁有高效率
    • 與Pocket儲存的網頁內容一致: 是
  2. 使用 IFTTT Create an Evernote when I fav an article in Pocket by neyal - IFTTT [Last visited: 2015-02-27]
    • 與Pocket儲存的網頁內容一致: 否,僅有摘要(內文的前面部分) Icon_exclaim.gif
  3. 使用 IFTTT When I favorite something in #Pocket, convert it to #PDF and put it in #Evernote by shanrep - IFTTT [Last visited: 2015-02-27]
    • PDF沒有順利產生 Icon_exclaim.gif

停止的服務:

比較不同社群網站的文章備份結果[edit]

Medium:

  • Wayback Machine:可能備份成功文字而缺少圖片。提供失敗[5]與成功[6]的例子。
  • Webpage archive:可能成功備份(連結),但遇過有文字但因為 Medium 需要「延緩載入的圖片」 (lazy load images) 變成模糊的例子 [7]
  • Perma.cc:成功備份的例子
  • historio:載入備份時有數秒可以看到備份內容,但是似乎跟 CSS 衝突,所以會看到空白。使用mhtml 格式才能閱讀備份。
  • Diigo(私人存取):以mhtml格式閱讀備份的註記。

PTT:

  • Wayback Machine:不同看板的 18+ 政策不同,如果有 18+ 政策,就會導致無法成功備份,而顯示 18+ 警告[8]。若該看板無 18+ 政策,就可以成功備份[9]
  • Webpage archive:成功備份。
  • Perma.cc:因 18+ 警告導致備份失敗。
  • historio:成功備份。
  • Diigo(私人存取):成功備份。

Facebook:

  • Wayback Machine:即使設定為公開,備份結果顯示登入畫面。
  • Webpage archive:錯誤訊息「Not Found (yet?)」(尚未找到)
  • Perma.cc:顯示「You’re Temporarily Blocked」(您暫時被封鎖) 訊息。
  • historio:使用書籤小工具無效,備份不成功。
  • Diigo(私人存取):以mhtml格式閱讀備份。​

Dcard


YouTube

其他同類型服務或軟體[edit]

其他服務

其他同類型軟體

砍站軟體: Icon_exclaim.gif HTTrack Website Copier 和 Teleport Pro 均無法處理簡體中文的目錄名稱和檔案名稱!


類似服務評比

相關文章[edit]

References[edit]