Python lxmlライブラリの簡単な紹介と基本的な使用説明


1.lxmlライブラリの紹介
lxmlはXMLとHTMLの解像器であり、主な機能はXMLとHTMLのデータを解析して抽出することである。lxmlは正則と同様に、C言語でも実現されています。高性能のpython HTML、XML解析器です。XML文法を利用して、特定の元素とノード情報を特定することもできます。
HTMLはハイパーテキストマーク言語で、主にデータを表示するために使用されます。彼の焦点はデータの外観です。
XMLは拡張可能なマーク言語で、主にデータの伝送と記憶に用いられます。彼の焦点はデータの内容です。
2.lxmlの取り付け方法
方法1:
cmd運転ウィンドウに入力:pip install lxml
在这里插入图片描述
方法2:
Pycharmでダウンロードします
FileCSettingCProject Interpreter Cは右上の「+」をクリックします。
第1ステップ
在这里插入图片描述
第2ステップ
在这里插入图片描述
ステップ3
在这里插入图片描述
方法3:
このサイトに入ってダウンロードします。https://lxml.de/index.html
在这里插入图片描述
3.基本使用
彼がHTMLコードを解析し、HTMLコードを解析する時に、HTMLコードが規範化されていないか、または不完全であれば、lxml解析器は自動的に修復または補完コードを作成し、効率を向上させます。
実例1:
解析HTMLコードブロック

#  html    
from lxml import etree

text = '''
<html>
    <div class="clearfix">
    <div class="nav_com">
     <ul>
       <li class="active"><a href="/" rel="external nofollow" >  </a></li>
       <li class=""><a href="/nav/python" rel="external nofollow" >Python</a></li>
       <li class=""><a href="/nav/java" rel="external nofollow" >Java</a></li>
       <li class=""><a href="/nav/web" rel="external nofollow" >  </a></li>
       <li class=""><a href="/nav/arch" rel="external nofollow" >  </a></li>
       <li class=""><a href="/nav/db" rel="external nofollow" >   </a></li>
       <li class=""><a href="/nav/5g" rel="external nofollow" >5G</a></li>
       <li class=""><a href="/nav/game" rel="external nofollow" >    </a></li>
       <li class=""><a href="/nav/mobile" rel="external nofollow" >    </a></li>
       <li class=""><a href="/nav/ops" rel="external nofollow" >  </a></li>
     </ul>
    </div>
    </div>
</html>>
</html>>

'''
#       html  
html = etree.HTML(text)
#print(html)
#        html
result = etree.tostring(html).decode('utf-8')
print(result)
実例2:
ファイルを読み、解析します。

# html      
from lxml import etree
# html      
html = etree.parse('data.html')
# html     
result = etree.tostring(html).decode('utf-8')
print(result)
ここでPython lxmlライブラリの簡単な紹介と基本的な使い方についての説明を紹介します。Python lxmlライブラリの使用内容については、以前の文章を検索したり、次の関連記事を見たりしてください。これからもよろしくお願いします。