中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

web中文本數據清洗流程的示例分析

發布時間:2021-06-08 10:55:26 來源:億速云 閱讀:143 作者:小新 欄目:web開發

這篇文章主要介紹web中文本數據清洗流程的示例分析,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!

今天,超過80%的數據是非結構化的。文本數據預處理是數據分析前的必經之路。大多數可用的文本數據本質上是高度非結構化和嘈雜的,需要更好的見解或建立更好的算法來處理數據。

我們知道,社交媒體數據是高度非結構化的,因其非正式的交流,存在包括拼寫錯誤、語法不好、俚語的使用、諸如URL、停用詞、表達式等不必要內容。

一個典型的商業問題,假設你感興趣的是:這是iPhone在粉絲中更受歡迎的特點。下面你已經提取了與iPhone相關的消費者意見的一條推特:

下面對這條推特做文本預處理:

1、去掉HTML 字符:

從Web獲得的數據通常包含許多HTML實體,如lt;& gt;& &;它嵌入到原始數據中。因此,必須擺脫這些實體。一種方法是通過使用特定的正則表達式直接刪除它們。另一種方法是使用適當的包和模塊(例如Python的HTMLPARSER),它可以將這些實體轉換成標準的HTML標記。例如:& lt;轉換為“<”,轉換為“&”。

web中文本數據清洗流程的示例分析

2、解碼數據:

這是將信息從復雜符號轉換為簡單易懂字符的過程。文本數據可能會受到不同形式的解碼,如“拉丁語”、“UTF8”等。因此,為了更好地分析,有必要保持完整的數據以標準的編碼格式。UTF-8編碼被廣泛接受并推薦使用。

web中文本數據清洗流程的示例分析

3、撇號查找:為了避免文本中的任何詞義消歧,建議在文章中保持適當的結構,并遵守上下文無關文法的規則。當使用撇號時,消歧的機會增加。

For example “it’s is a contraction for it is or it has”.

所有撇號都應該轉換成標準詞典。可以使用所有可能的關鍵字的查找表來消除歧義。

web中文本數據清洗流程的示例分析

4、停用詞的去除:當數據分析需要在字級上進行數據驅動時,應刪除通常出現的單詞(停用詞)。通過創建的一個長長的停止詞列表,或者可以使用預定義的語言特定的庫。

5、刪除標點符號:所有的標點符號應根據優先級來處理。例如:“,”,“,”,“?”“重要標點應該保留,而其他標點需要刪除。

6、刪除表達式:文本數據(通常是語音轉錄)可能包含人類的表達,如[笑],[哭],[觀眾暫停]。這些表達式通常與語音內容無關,因此需要刪除。在這種情況下,簡單正則表達式可能是有用的。

7、分裂的附加詞:人在社交論壇中的生成文本數據,本質上是完全非正式的。大多數推文伴隨著多個附加詞,例如RayyDay. PrimeCythOrth.等,這些實體可以用簡單的規則和正則表達式分裂成它們的正常形式.

8、俚語查找:同樣,社交媒體包括大多數俚語詞匯。這些詞應該轉換成標準詞來制作自由文本。像LUV這樣的詞將被轉換成愛,Helo到Hello。撇號查找的類似方法可以用來將俚語轉換成標準詞。網上有大量的信息源,它提供了所有可能的俚語的列表,可以用它們作為查找字典來進行轉換。

9、規范詞:有時詞的格式不正確。例如:“I looooveee you” 應為 “I love you”。簡單的規則和正則表達式可以幫助解決這些情況。

10、刪除URL:應刪除文本數據中的URL和超鏈接,如評論、評論和推文。

以上是“web中文本數據清洗流程的示例分析”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

web
AI

镇宁| 吴忠市| 广东省| 山西省| 盐山县| 永嘉县| 正定县| 施甸县| 郁南县| 区。| 应城市| 阳泉市| 舞阳县| 南华县| 隆尧县| 林州市| 商南县| 西藏| 赤峰市| 铜鼓县| 东兴市| 平凉市| 肃南| 大兴区| 大名县| 固阳县| 崇文区| 达日县| 措勤县| 凌云县| 政和县| 拜泉县| 庄浪县| 福州市| 出国| 恩施市| 阿瓦提县| 锦屏县| 汽车| 潮安县| 元谋县|