ウェブページの文章を採集する(小説採集に適している)[2回目の編集]
4145 ワード
#----------------------------------------------------------#
# ====>
赤いフォント-特にお酒を煮る人が見たことを指します.太くするには注意が必要です. #
# ====>
青太字-修正に参加した友人を含む、本稿の関係者を指す. #
#===>>酒を煮てお茶を飲む-Http://cwtea.blog.51cto.com
#
#----------------------------------------------------------#
最初の更新:文字化けしの問題を解決します.
老男の子の先生QQ密私は、何気なく興味を持って、試してみました.次の手順に従います.
----------------------
男の子 14:11:56 兄弟の男の子 14:12:10 http://book.51cto.com/art/201202/314590.htm お勧めします.男の子 14:12:35 また、あなたのシナリオで ロットが下りる 名前を変える?男の子 14:12:40 男の子 14:14:55 一つのSHELL問題: http://book.51cto.com/art/201202/314590.htm スクリプト 大量に文章をダウンロードして、それから中国語の対応する名称に変えますか?
2回目の更新:ネストされたコマンド
お茶を煮る:それとも元の問題sed-n"?"p filename問題は、shellを学ぶ上でもっと便利な操作があるため、元のそれは大きさのネストで、shellを学ぶ時に$()を書いたことがあります.私たちの最終的なシナリオは以下の通りです.
- j=0
- for ((i=314494;i<=314561;i++))
- do
- wget http://book.51cto.com/art/201202/$i.htm
- $((++j))
- cat $i.htm |grep ^\
|sed <span class="string">'s/<title>//g' |sed 's///g'|sed 's/\ //g'|sed 's/-51CTO.COM//g'|iconv -f gb2312 -t utf-8 >>title.htm
- sed '1,/
/ D'
$i.htm | sed '/align=right>/,$d' |sed 's/
//g'|sed 's///g' |sed 's///g'
>$j.htm
- mv $j.htm $(sed -n "$j"p title.htm)$j.htm
- done
- rm -rf 3* *title*
--------------------------
開く:http://book.51cto.com/art/201202/314590.htm 本の試読ページであることに気づいた.後で考えてみると、この脚本を書けば、小説の採集に使えるのではないでしょうか.直接工事を始める.
発見規則:
開始:http://book.51cto.com/art/201202/314494.htm
終了:http://book.51cto.com/art/201202/314561.htm
では、以前書いたスクリプトでダウンロードできます.
--------------------
- for ((i=314494;i<=314561;i++))
- do
- wget http://book.51cto.com/art/201202/$i.htm
- done
---------------------------
ダウンロードするとhtmのドキュメントであることがわかりました.
-----------------------
………N行は省略する.
var favor_url = 'http://book.51cto.com/art/201202/314494.htm'; //È磺http://bbs.51cto.com/thread-789649-1.html
var favor_title = 'Ç°ÑÔ'; //
//°ó¶¨¸´ÖÆ°´Å¥
copy('msnqqcopy', 'http://book.51cto.com/art/201202/314494.htm', '·ÖÏíµ½MSN/QQµÄÁ´½Ó¸´ÖƳɹ¦!');
// copy('bbscopy', '[url=http://book.51cto.com/art/201202/314494.htm][u]Ç°ÑÔ[/u][/url]', '·ÖÏíµ½ÂÛ̳µÄUBB´úÂ븴ÖƳɹ¦!');
</div>
<div>
document.getElementById('books').innerHTML = document.getElementById("bookss").innerHTML;
</div>
<div>