中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

PHP中怎么截取HTML代碼

發布時間:2021-07-23 16:29:35 來源:億速云 閱讀:221 作者:Leah 欄目:編程語言

PHP中怎么截取HTML代碼,針對這個問題,這篇文章詳細介紹了相對應的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

需求:將一段文字截取一定的物理長度顯示,注意,要截取的不是字符串的字節數,UFT-8 的編碼中文字符是3個字節或者4個字節的,而顯示的時候中文會占兩個字符的長度,英文字符只占一個,全角的時候又有不同。

而且給的數據是HTML代碼串,比如這樣:

< div class=”aaa”>< a href=”/aaa.php?id=1&Prime;>張三< /a> 評論了 < a href=”/aaa.php?id=444&Prime;>李四< /a> 分享的 < a href=”bbb.html”>一篇文章文章一長串的東西< /a>< /div>

PHP HTML截取代碼的時候是要截取 div 標簽內部的東西,而且要保留HTML標簽,只是對其中的文字做處理。比如我可能只是截取到“李四”的“李”字,但是如果就這樣放到前端的話,“李四”前面的 a 標簽是沒有閉合的,所以截取之后要保證HTML的語法正確。
這個問題確實不太好搞,讓我郁悶了兩天。請注意,這只是一個字符串,只不過內容是HTML代碼,是沒有什么DOM的。如果是在前端處理就好辦了,直接DOM獲取,然后對里面的節點進行處理,***把innerHTML 之類的東西輸出就搞定了。現在可不行了,得換個思路。同事的思路是這樣的:

遍歷字符串的每一個字符。設置一個標記,碰到標簽開始的標記< 就置為1,接下來的字符都不記數,然后碰到>之后再開始計數。對標簽內部的字符串處理的時候,還要先判斷當前字符的編碼是不是可能是中文,一般來說PHP中 UTF-8 編碼的中文字符的長度都是3,所以如果碰到是中文字符編碼,就要跳過兩個不記數&hellip;&hellip;說到這里我自己頭已經開始大了。個人認為這種方法很不爽,首先這種精致的邏輯不太容易控制,而且 UFT-8 編碼下中文產生的長度有可能是3個或4個 所以代碼的嚴密性值得懷疑。

我個人的思路是,用 Tidy 來搞(具體用法請看PHP手冊吧)。昨天研究了一下那個 Tidy ,發現這個東西還是挺好用的。首先,把這個字符串轉換成 Tidy 對象,這樣:

  1. $tidy = tidy_parse_string
    ($str, array(), &lsquo;utf8&prime;);   

  2. // ***一個是設置編碼的,注意,
    這里是utf8 ,不是utf-8,沒有中間那個連線。 

然后獲取$tidy中的 body(因為轉換之后$tidy會自動加上<head><body>等標簽):
$body = tidy_get_body($tidy);
這個時候你可以用 var_dump 看一些 $body 的結構,會發現它把每個標簽都變成了一個對應的對象,里面有相應的屬性。舉例來說,比如 <a href=”#”>sdf</a> ,這么一條語句對應的一些屬性有:

name=>”a”
value => “<a href=”#”>sdf</a>”
child=> array{[0]=>一個文本節點對象,value是 sdf}
attribute=array{”href”=>”#”}
&hellip;..其他屬性

可以看到,我們其實是可以單獨去處理 a 標簽對應節點下面的文字節點的值的,那樣PHP HTML截取代碼就不會破壞任何HTML完整性。原來我以為改變 a 標簽中文字節點的值之后, a 標簽的value也會跟著改變,那樣我直接返回a標簽對應節點的value就OK了,沒想到不是那個樣子,哎,所以處理過其中的文字之后還是要自己拼出新的HTML。
知道了Tidy對象的結構之后,一切就好辦了,只要遍歷所有的節點,對于本需求來說,就是找到那個 div 標簽,然后開始處理里面的節點。代碼如下:

  1. if(mb_strwidth($subchild->value, 
    &lsquo;utf-8&prime;) >= $len)   

  2. {   

  3. $subchild->value = mb_strimwidth
    ($subchild->value, 0, $len, &lsquo;&hellip;', &lsquo;utf-8&prime;);   

  4. $trimed_str .= $subchild->value;   

  5. break;   

  6. }   

  7. else   

  8. {   

  9. $trimed_str .= $subchild->value;   

  10. $len = $len - mb_strwidth($subchild->
    value, &lsquo;utf-8&prime;);   

  11. }  


里面的$subchild 就是一個子節點。注意,這里使用了 mb_strwidth 來獲取字符串長度。嚴重推薦一下這個 mb_strwidth,很好用,它會把中文當作兩個字符長度處理,正好符合這里的需求!而且PHP HTML截取代碼的時候用到了 mb_strimwidth,這個函數也會把中文當作兩個字符長度處理,mb_ 開頭的函數真是好用啊。

關于PHP中怎么截取HTML代碼問題的解答就分享到這里了,希望以上內容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關注億速云行業資訊頻道了解更多相關知識。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

博野县| 廉江市| 阿拉善盟| 锦屏县| 神农架林区| 绥中县| 胶州市| 鹿泉市| 永川市| 漳平市| 普宁市| 华容县| 平乡县| 定边县| 丹东市| 萍乡市| 五莲县| 昌乐县| 昭通市| 西峡县| 绩溪县| 根河市| 乌鲁木齐市| 同仁县| 阿坝县| 常熟市| 灵丘县| 田阳县| 巴林右旗| 文化| 孝感市| 阳泉市| 东平县| 华阴市| 和林格尔县| 通道| 安庆市| 松潘县| 荆门市| 宝鸡市| 七台河市|