ウェブページの文章を採集する(小説採集に適している)[2回目の編集]



#----------------------------------------------------------#
# ====> 
赤いフォント-特にお酒を煮る人が見たことを指します.太くするには注意が必要です. #
# ====> 
青太字-修正に参加した友人を含む、本稿の関係者を指す. #
#===>>酒を煮てお茶を飲む-Http://cwtea.blog.51cto.com      
   #
#----------------------------------------------------------#
最初の更新:文字化けしの問題を解決します.
老男の子の先生QQ密私は、何気なく興味を持って、試してみました.次の手順に従います.
----------------------
男の子 14:11:56  兄弟の男の子 14:12:10  http://book.51cto.com/art/201202/314590.htm お勧めします.男の子 14:12:35  また、あなたのシナリオで ロットが下りる 名前を変える?男の子 14:12:40  男の子 14:14:55  一つのSHELL問題: http://book.51cto.com/art/201202/314590.htm スクリプト 大量に文章をダウンロードして、それから中国語の対応する名称に変えますか?
2回目の更新:ネストされたコマンド
お茶を煮る:それとも元の問題sed-n"?"p filename問題は、shellを学ぶ上でもっと便利な操作があるため、元のそれは大きさのネストで、shellを学ぶ時に$()を書いたことがあります.私たちの最終的なシナリオは以下の通りです.
 
   
   
   
   
  1. j=0  
  2. for ((i=314494;i<=314561;i++))  
  3. do  
  4. wget http://book.51cto.com/art/201202/$i.htm  
  5. $((++j))  
  6. cat $i.htm |grep ^\|sed <span class="string">'s/<title>//g'|sed 's///g'|sed 's/\ //g'|sed 's/-51CTO.COM//g'|iconv -f gb2312 -t utf-8  >>title.htm  
  7. sed '1,/

    / D'

     $i.htm | sed '/align=right>/,$d' |sed 's/
    //g'
    |sed 's///g' |sed 's/

    //g'

     >$j.htm  
  8. mv $j.htm $(sed -n "$j"p title.htm)$j.htm  
  9. done  
  10. rm -rf 3* *title*  

-------------------------- 
開く:http://book.51cto.com/art/201202/314590.htm 本の試読ページであることに気づいた.後で考えてみると、この脚本を書けば、小説の採集に使えるのではないでしょうか.直接工事を始める.
 
発見規則:
開始:http://book.51cto.com/art/201202/314494.htm 
終了:http://book.51cto.com/art/201202/314561.htm
では、以前書いたスクリプトでダウンロードできます.
--------------------
   
   
   
   
  1. for ((i=314494;i<=314561;i++)) 
  2. do 
  3. wget http://book.51cto.com/art/201202/$i.htm 
  4. done 


---------------------------
ダウンロードするとhtmのドキュメントであることがわかりました.
-----------------------
………N行は省略する.
        var favor_url = 'http://book.51cto.com/art/201202/314494.htm';  //È磺http://bbs.51cto.com/thread-789649-1.html
        var favor_title = 'Ç°ÑÔ';      //
 
       //°ó¶¨¸´ÖÆ°´Å¥
        copy('msnqqcopy', 'http://book.51cto.com/art/201202/314494.htm', '·ÖÏíµ½MSN/QQµÄÁ´½Ó¸´ÖƳɹ¦!');
//     copy('bbscopy', '[url=http://book.51cto.com/art/201202/314494.htm][u]Ç°ÑÔ[/u][/url]', '·ÖÏíµ½ÂÛ̳µÄUBB´úÂ븴ÖƳɹ¦!');
 






</div>
<div>
document.getElementById('books').innerHTML = document.getElementById("bookss").innerHTML;
</div>
<div>