ウェブページの文章を採集する(小説採集に適している)[2回目の編集]

4145 ワード

#----------------------------------------------------------#
# ====>
赤いフォント-特にお酒を煮る人が見たことを指します.太くするには注意が必要です. #
# ====>
青太字-修正に参加した友人を含む、本稿の関係者を指す. #
#===>>酒を煮てお茶を飲む-Http://cwtea.blog.51cto.com
#
#----------------------------------------------------------#
最初の更新:文字化けしの問題を解決します.
老男の子の先生QQ密私は、何気なく興味を持って、試してみました.次の手順に従います.
----------------------
男の子 14:11:56 兄弟の男の子 14:12:10 http://book.51cto.com/art/201202/314590.htm お勧めします.男の子 14:12:35 また、あなたのシナリオでロットが下りる名前を変える?男の子 14:12:40 男の子 14:14:55 一つのSHELL問題: http://book.51cto.com/art/201202/314590.htm スクリプト大量に文章をダウンロードして、それから中国語の対応する名称に変えますか?
2回目の更新:ネストされたコマンド
お茶を煮る:それとも元の問題sed-n"?"p filename問題は、shellを学ぶ上でもっと便利な操作があるため、元のそれは大きさのネストで、shellを学ぶ時に$()を書いたことがあります.私たちの最終的なシナリオは以下の通りです.

   
   
   
   
    
    
    
    j=0  
    
    
    
    for ((i=314494;i<=314561;i++))  
    
    
    
    do  
    
    
    
    wget http://book.51cto.com/art/201202/$i.htm  
    
    
    
    $((++j))  
    
    
    
    cat $i.htm |grep ^\|sed <span class="string">'s/<title>//g'|sed 's///g'|sed 's/\ //g'|sed 's/-51CTO.COM//g'|iconv -f gb2312 -t utf-8  >>title.htm  
    
    
    
    sed '1,// D' $i.htm | sed '/align=right>/,$d' |sed 's/
//g'|sed 's///g' |sed 's///g' >$j.htm  
    
    
    
    mv $j.htm $(sed -n "$j"p title.htm)$j.htm  
    
    
    
    done  
    
    
    
    rm -rf 3* *title*

--------------------------
開く:http://book.51cto.com/art/201202/314590.htm 本の試読ページであることに気づいた.後で考えてみると、この脚本を書けば、小説の採集に使えるのではないでしょうか.直接工事を始める.

発見規則:
開始:http://book.51cto.com/art/201202/314494.htm
終了:http://book.51cto.com/art/201202/314561.htm
では、以前書いたスクリプトでダウンロードできます.
--------------------

   
   
   
   
    
    
    
    for ((i=314494;i<=314561;i++)) 
    
    
    
    do 
    
    
    
    wget http://book.51cto.com/art/201202/$i.htm 
    
    
    
    done

---------------------------
ダウンロードするとhtmのドキュメントであることがわかりました.
-----------------------
………N行は省略する.
var favor_url = 'http://book.51cto.com/art/201202/314494.htm'; //Èç£ºhttp://bbs.51cto.com/thread-789649-1.html
var favor_title = 'Ç°ÑÔ'; //

//°ó¶¨¸´ÖÆ°´Å¥
copy('msnqqcopy', 'http://book.51cto.com/art/201202/314494.htm', '·ÖÏíµ½MSN/QQµÄÁ´½Ó¸´ÖÆ³É¹¦!');
// copy('bbscopy', '[url=http://book.51cto.com/art/201202/314494.htm][u]Ç°ÑÔ[/u][/url]', '·ÖÏíµ½ÂÛÌ³µÄUBB´úÂë¸´ÖÆ³É¹¦!');

</div>
<div>
document.getElementById('books').innerHTML = document.getElementById("bookss").innerHTML;
</div>
<div>

flowableプロセスノードの順序データの取得

JAva単例モード5種類の書き方