手机浏览器扫描二维码访问
巧妇难为无米之炊,数据就是机器学习的“米”。
- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。
- 数据预处理:这步特别关键,就像淘米要去沙。包括:
- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。
- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。
- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。
2. 特征工程:给数据“化妆”,让模型看得更清楚
“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。
- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。
- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。
3. 模型训练:让机器“刷题涨本事”
选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。
- 训练过程中,得注意过拟合和欠拟合:
- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。
- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。
解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。
4. 模型评估:给机器“考试”打分
训练好的模型得测试一下准不准。常用的指标有:
- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。
陈长安跟在美女师父身边万年之久,不老不死,却始终无法修炼,最终被师父赶走,带着伙伴麒麟大黄,游历人间,回归陈家,获得天生胎珠,终得修炼之法。陈长安也没想到,自己的修炼天赋,竟然落在了娘胎之中?...
非凡侦探所情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的都市言情小说,非凡侦探所-酷酷写作人-小说旗免费提供非凡侦探所最新清爽干净的文字章节在线阅读和TXT下载。...
林媗偶然得到一个占卜系统,占卜准确率百分百,可趋吉避凶,救人于危难。如此神器,却有一致命弱点,占卜明码标价,一次十块。 发家致富走上人生巅峰的妄想才开个头就被掐断了。 林媗矜矜业业的干活,偶尔靠占卜赚杯奶茶钱,间或从系统商城抽些奇奇怪怪、但没什么用的道具。 【贞子的长发:迷路时可从电视机内爬出,因贞子喜欢帅哥,SO爬出有几率遇见帅哥。】 【夫子的戒尺:持有时可向对方提问,回答错误,可打对方手心十下。】 【老头贴纸:贴上,你就是葫芦娃的爷爷。】 …… “什么乱七八糟的,没一个能用的!” 某日,林媗迷路,走投无路之下,只得戴上贞子的长发,爬出了电视机。 陈初低眉看着半截身子还卡在自家电视机里的女人:“能解释一下吗?” 林媗:贞子果然喜欢帅哥。 强而不自知女主VS大佬男主。...
RX纪元2200年,面对被污染破坏的地球,有人提出要在地外再造一个“人造地球”的计划。但人类并未因为这个计划团结,各大派系还在为了争夺地球圈仅剩的资源斗得你死我活,人型兵器这种全新的武器被投入的了战场……......
《可是他叫我宝宝诶》作者:黑夜长明,已完结。乔谅最近谈了个富二代。别的不说,真的好傻。朋友问起,他夹着烟想了下,像是二哈和金毛的串串。他补充:挺可爱的小…...
被婶婶强逼着给人道歉后,路明非失魂落魄地躲进了自己的秘密基地,他心想,这大概就是他应得的结局。在他就要接受现实时,一声提示音从他手机里传出。“Baidu贴吧已为您安装完成,是否立即打开?”惊疑未定的路明非抱着自暴自弃的想法点开了那个软件。典、孝、急、乐、绷、赢,贴吧六艺!手机屏幕的白光照亮了路明非激动兴奋的脸,他难以自抑地惊呼道:“这简直就是我!”...