紊亂的網絡文章轉存為Word文檔的技巧
平時我們經常會在網上復制一些精彩文章保存,不過網絡文章格式非常紊亂。比如文章標點全角/半角混用,段落設計不合理、字體多種多樣等,這給我們后續閱讀帶來極大的不便。如何快速將這些不規范的元素去除,形成一篇規范化的文章?其實只要借助我們常用的Word即可實現,下面以Word 2016為例 。
小提示:
因為網上內容大多使用Html代碼,為了實現更純凈的格式,在選擇網頁內容復制后,在Word要使用“開始→粘貼→只保留文本”的方式粘貼純文本內容,然后再執行下面的排版內容。
半角/全角一步替換
大家知道輸入法分為全角和半角輸入,網上很多文章在輸入時都會在意全角/半角的區別,這樣復制的文章經常半角/全角混用,全角字符占用更多字符,看起來也不夠美觀。如果復制的文章存在這種現象,我們可以使用Word的自帶組件快速完成替換。
首先將復制文檔全部粘貼到Word,全選復制的文檔,點擊“開始→Aa(更改大小寫)→半角”,這樣文章中原來全角字符即可改為半角(圖1)。
圖1 更改全角為半角
在Word更改大小寫菜單可以看到其還包含“句首字母大小寫”、“每個單詞首字母大寫”等常用的英文書寫規范,同樣可以用它來快速規范文章格式。比如上述例子,很多單詞首字母大寫就沒有規范,同上選擇正文內容(不含http鏈接內容),點擊“每個單詞首字母大寫”即可(圖2)。
圖2 快速設置每個單詞首字母大寫
一鍵刪除亂碼
一些網站為了阻止我們任意復制文章,從其中復制下來的文章粘貼到記事本后經常會出現很多不規則的亂碼,這些亂碼大多附在段落的最后(圖3)。
圖3 文章復制到記事本后出現亂碼
不過這些亂碼在Word中顯示不明顯,因為這些亂碼字體的顏色被設置為白色(和Word底色一致)。對于這些亂碼文字的刪除,可以使用“查找替換功能”。在Word中按 Ctrl+H 打開“查找和替換”窗口,展開替換的高級功能,接著點擊“格式”下的“字體……”,在打開的“字體”窗口中,展開 “全部文字”中的“字體顏色”內的“下拉菜單”,選擇其中的“白色”(圖4)。
圖4 選擇白色字體
返回替換窗口,替換為留空,點擊“全部替換”,這樣那些文后的亂碼文件就可以全部刪除了(圖5)。
圖5 通過字體顏色查找和替換
刪除多余空格和空行
網上復制的文章經常會包含大量的空格和空行,同樣對于這類元素的刪除也是通過查找和替換來批量刪除。
對于空格的形成主要有半角、全角和制表符造成的,我們只要使用相應的代碼進行替換即可。比如制表符的空格,打開查找和替換窗口,單擊對話框中的“高級”按鈕,然后單擊“特殊字符”,選擇“制表符”,在“查找內容”框中會出現“^t”,然后替換為留空,這樣即可刪除制表符形成的空格(圖6)。
圖6 刪除制表符空格
對于空行的刪除,點擊兩次“特殊字符”中的“段落標記”,“查找內容”框中將出現兩個“^p”,替換為輸入一個“^p”,再單擊“全部替換”,文檔中所有的空段全部消失(可以執行多次替換),可以看到替換前后文章結構完全不同(圖7)。
中英文標點互換
網上很多文章都是中英文標點符號混用,這樣我們需要對其進行統一轉換。水平較高用戶可以自制宏來進行批量替換。普通用戶則可以借助“Word必備工具箱”來實現批量替換。在Word打開需要排版的文章,點擊“工具箱→英文標點或者中文標點”,這樣即可輕松完成轉換(圖8)。
圖8 通過專業插件完成標點轉換
當然我們還可以用它來實現更多排版操作,比如需要從網上復制很多文章保存。那么對于通用的替換則可以通過“Word必備工具箱”進行批量替換,點擊“多文檔查找與替換”,在彈出窗口輸入需要查找和替換內容,選擇文檔所在目錄,這樣即可快速實現多個文檔的替換(圖9)。
圖9 批量文檔替換
寫在最后
可以看到Word進行排版的主要手段就是借助查找和替換表達式進行批量刪除,由于每篇具體文章不同,大家可以根據實際情況使用更多正則表達式進行刪除。比如刪除兩個非字母之間的半角空格,查找“([!a—zA—Z])^32([!a—zA—Z])”替換為“12”,刪除英文句號、中文句號、英文引號、中文引號后的段落標記,查找“([!。。”“])^13”替換為”1"即可。當然為了提高排版操作效率,還可以通過Word插件來完成更多批量替換操作。