アリ2015夏休み実習生データ分析筆記試験問題部分

2178 ワード

                   。               ,           。

全部で15題、客観問題と主観問題の2部分、解答時間60 min 1、以下のアルゴリズムは欠落値に敏感なモデルを含む:A、Logistic Regression B、ランダム森林C、素朴ベイズD、C 4.5
2、数列2、5、13、34、89、…の次の項目を探し出す:A、233 B、144 C、267 D、ABCはすべて間違いです
3、ある人は30元の電話カードを2枚売って、いずれも30元で成約して、その中の1枚は20%を稼いで、その中の1枚は20%を弁償しました.彼に全体的に利益ですか、それとも損失ですか、勝つ/損はいくらですか.A、不損益B、利益2.5元C、損失2.5元D、利益2元
4、以下のシーンでは、使用するマイニングアルゴリズムが不適切である:A、関連ルールアルゴリズムでバドミントンを購入した購入者を分析し、バドミントンシューズBを推薦するのに適しているかどうか、ユーザーの最近数年の消費金額データに基づき、主成分分析法でユーザーが今後1ヶ月で可能な消費金額公式C、ユーザーの最近1年のショッピングログデータに基づき、K-meansアルゴリズムで宝を洗う売り手の中の高富帥と白富美Dを集め、ユーザーが最近購入した商品情報に基づき、決定数アルゴリズムで宝を洗う買い手が男性か女性かを識別した.
5、均一な正六面体サイコロを投げるエントロピーは、A、1 bit B、2.6 bit C、3.2 bit D、3.6 bit
6、ある調査会社は委託満足度調査を受け、満足点数は0~20の間で36名の消費者をランダムに抽出し、平均満足点は12、標準差は3であり、大きなサンプルの仮定の下で、調査結果に基づいて全体平均の信頼区間に対して、結果は:A、9~15分B、11~13分C、12~14分D、6~18分である.
7、市場部は一部のユーザーを選択して製品Aのメール普及を行い、ユーザーが時間ウィンドウ内でA製品を購入したかどうかのデータを取得した.データ・マイニングの学生は、これらの既知のデータを購入するかどうかを通じて、他のユーザーの購入傾向を判断します.これは、データ・マイニングでどのようなタスクに属しますか.A、クラスタリングB、予測C、探索性分析D、関連規則
8、EXCELファイルセルC 2の携帯電話番号13501245678の4位から7位までを*A、=replace(C 2,4,4,**)B、=replace(C 2,4,4,"*")C、=replace(C 2,4,7,"*")D、=replace(C 2,4,7,**)に隠す方法
9、論理回帰中の回帰パラメータは以下のどのような方法で解くことができますか?A、最小二乗法B、ニュートン反復法C、モンテカルロ法D、尤度推定法
10、マイクロソフトのEXCELソフトウェアは強大なデータ分析ツールであり、入門が簡単で、拡張機能が強く、可視化が豊富であることで知られている.その中でEXCELグラフはデータアナリストが最もよく使う分析結果を表現するためのツールである.EXCELグラフの選択説明は正確である:A、折れ線図はデータが時間とともに変化することを表現するために用いられる.未来の発展傾向B、散点図を予測して、同じ種類のいくつかの事物の中の各構成比重を説明するために使用することができて、あるいはある事物が時間の推移に従ってその各構成の比重の変化C、餅図は主に内部の各構成部分の全体の比重を分析するために使用して、全体に対する影響Dを反映して、レーダー図は主に同類の他の2組の事物の多種のプロジェクトの上で対比します
11、ランダム森林が一般的な決定木より安定しているいくつかの原因を説明してください.
12、SQL文を考察する:取引表A(trade_noがプライマリキー)、取引異常表B(trade_noがプライマリキー)、1)、取引表A中の取引総数を計算する.2)、関連表によりA表からB表異常取引を除去する(A中のフィールドを保留すればよい)
13、ある業務部門は先週1週間の大促進を終え、業務対口アナリストとして、活動を評価する必要があります.どの方面から分析しますか.
14、世界の10万人に1人がエイズ患者です.ある薬はエイズの検査を助けることができて、もし一人が本当にエイズであれば、100%検査することができて、もし一人がエイズがなければ、その検査の間違いの確率は1%です.すみません、このような検査薬を利用して、正確な確率を監視するのはどのくらいですか?
15、阅巻官は明日山に登ります.答案を出しているあなたがかばんを用意してほしいです.中に必要なものが入っています.どう処理するか詳しく教えてください.
主に統計学の基本知識、データマイニングでよく使われる十大アルゴリズム及びデータに対する感度と思考問題が全面的であるかどうかを考察する.