Windowsの下で比較的簡単にウェブページのソースコードの方法を取得します

13519 ワード

一つ目の方法はMFCの中の 
 CString GetHttpFileData(CString strUrl)
{
     CInternetSession Session("Internet Explorer", 0);
     CHttpFile *pHttpFile = NULL;
     CString strData;
     CString strClip;
     pHttpFile = (CHttpFile*)Session.OpenURL(strUrl);
    while ( pHttpFile->ReadString(strClip) )
     {
      strData += strClip;
      }
     return strData;
}

ちなみに、pHttpFile->ReadString()は、1回に1つのデータ・スライスしか読めない可能性がありますが、何回読むかはネットワークの状況によって異なりますので、毎回読むデータを総データの末尾に加算し、CStringでバッファ処理を省きます:) ヘッダファイル#includeを含むエンジニアリング設定を忘れないでください.using MFCを選択しないとコンパイルできません.
2つ目はWinNetの純粋なAPIを用いて実現される
#define MAXBLOCKSIZE 1024
#include 
#include 

#pragma comment(lib, "wininet.lib")

void GetWebSrcCode(const char *Url);

int _tmain(int argc, _TCHAR* argv[])
{
    GetWebSrcCode("http://www.cnblogs.com/");

    return 0;
}

void GetWebSrcCode(const char *Url)
{
    HINTERNET hSession = InternetOpen("zwt", INTERNET_OPEN_TYPE_PRECONFIG, NULL, NULL, 0);
    if (hSession != NULL)
    {
        HINTERNET hURL = InternetOpenUrl(hSession, Url, NULL, 0, INTERNET_FLAG_DONT_CACHE, 0);
        if (hURL != NULL)
        {
            char Temp[MAXBLOCKSIZE] = {0};
            ULONG Number = 1;

            FILE *stream;
            if( (stream = fopen( "E:\\test.html", "wb" )) != NULL )
            {
                while (Number > 0)
                {
                    InternetReadFile(hURL, Temp, MAXBLOCKSIZE - 1, &Number);
                    fwrite(Temp, sizeof (char), Number , stream);
                }
                fclose( stream );
            }

            InternetCloseHandle(hURL);
            hURL = NULL;
        }

        InternetCloseHandle(hSession);
        hSession = NULL;
    }
}

3つ目は非パッケージのSocketを使って実現しました
int main(int argc, char* argv[])
{
    SOCKET hsocket;
    SOCKADDR_IN saServer;
    WSADATA wsadata;
    LPHOSTENT lphostent;
    int nRet;
    char Dest[3000];  
    char* host_name="blog.sina.com.cn";
    char* req="GET /s/blog_44acab2f01016gz3.html HTTP/1.1\r
" "User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET4.0C; .NET4.0E; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)\r
" "Host:blog.sina.com.cn\r
\r
"; // if(WSAStartup(MAKEWORD(2,2),&wsadata)) printf(" SOCKET !"); lphostent=gethostbyname(host_name); if(lphostent==NULL) printf("lphostent !"); hsocket = socket(AF_INET,SOCK_STREAM,IPPROTO_TCP); saServer.sin_family = AF_INET; saServer.sin_port = htons(80); saServer.sin_addr =*((LPIN_ADDR)*lphostent->h_addr_list); // SOCKET nRet = connect(hsocket,(LPSOCKADDR)&saServer,sizeof(SOCKADDR_IN)); if(nRet == SOCKET_ERROR) { printf(""); closesocket(hsocket); return 0; } // SOCKET nRet = send(hsocket,req,strlen(req),0); if(nRet==SOCKET_ERROR) { printf(""); closesocket(hsocket); } nRet=1; while(nRet>0) { // nRet=recv(hsocket,(LPSTR)Dest,sizeof(Dest),0); if(nRet>0) Dest[nRet]=0; else Dest[0]=0; char sDest[3000] = {0}; UTF8_2_GB2312(sDest,nRet,Dest,nRet); ////printf("
Received bytes:%d
",nRet);
printf("Result:
%s
",sDest); } }

また、以上、私たちがウェブページを取得したとき、取得したのはUTF 8かもしれませんが、現在多くのサイトで使われているようです.次は符号化変換です.
void UTF_8ToUnicode(wchar_t* pOut,char *pText)
{   
    char* uchar = (char *)pOut; 
    uchar[1] = ((pText[0] & 0x0F) << 4) + ((pText[1] >> 2) & 0x0F);
    uchar[0] = ((pText[1] & 0x03) << 6) + (pText[2] & 0x3F); 
} 
void Gb2312ToUnicode(wchar_t* pOut,char *gbBuffer) 
{   
    ::MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,2,pOut,1);
} 
void UTF_8ToGB2312(char*pOut, char *pText, int pLen)  
{   
    char Ctemp[4];   
    memset(Ctemp,0,4); 
    int i =0 ,j = 0; 
    while(i < pLen) 
    {  
        if(pText[i] >= 0)  
        {  
            pOut[j++] = pText[i++]; 
        } 
        else 
        {  
            WCHAR Wtemp; 
            UTF_8ToUnicode(&Wtemp,pText + i);
            UnicodeToGB2312(Ctemp,Wtemp); 
            pOut[j] = Ctemp[0];
            pOut[j + 1] = Ctemp[1];  
            i += 3;   
            j += 2;  
        }   
    } 
    pOut[j] ='
'; return; }

これはGB 2312に変換されたコードです
転載先:https://www.cnblogs.com/croot/p/3391003.html