手机浏览器扫描二维码访问
巧妇难为无米之炊,数据就是机器学习的“米”。
- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。
- 数据预处理:这步特别关键,就像淘米要去沙。包括:
- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。
- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。
- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。
2. 特征工程:给数据“化妆”,让模型看得更清楚
“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。
- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。
- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。
3. 模型训练:让机器“刷题涨本事”
选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。
- 训练过程中,得注意过拟合和欠拟合:
- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。
- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。
解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。
4. 模型评估:给机器“考试”打分
训练好的模型得测试一下准不准。常用的指标有:
- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。
浪荡半生的网文作者重生了!重回2000年的巴黎街头……身无一技之能,满脑子的电影和文学作品,好像也不是不可以咯。咦,我的外语技能满级了?时空错乱!这个世界似乎和原来的世界有所不同。没有雨果和他的悲惨世界,没有狄更斯和他的双城记,也没有海明威的老人与海,更没有玛格丽特·米切尔的乱世佳人……好像已经足够咯!不去薅老朋友们的作品,做个快乐的浪子。我将在这个乱七八糟的世界里,走出一条我自己的路……从今天开始我要浪荡欧罗巴,走一条与众不同的伟大民族复兴之路!!!!------------------故事,就从一个巴黎街头的小咖啡馆开始……...
禁忌拉扯|叔侄雄竞|强取豪夺|狗血死遁|为爱发疯世人眼里,香岛温家新任家主温涉,是个杀伐果决、不近人情的资本家,凡是触犯他核心利益的人,下场皆是凄惨。而迟妍受闺蜜所托,将以其父遗孀的身份回...
在原神冒险的日子情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的其他类型小说,在原神冒险的日子-名字都被占了是吧-小说旗免费提供在原神冒险的日子最新清爽干净的文字章节在线阅读和TXT下载。...
非主流式/没有开局神级天赋和数据炸裂,不带系统与影响平衡的道具各类BUG探索/桌游时代的众多BUG、玩梗,在这里你会发现似曾相识数据流/伤害值严谨、计算真实(截图为证)网吧情节/单主角,复刻桌游时代的网吧景象被动技能/本书的主要战力加成主线不与现实融合,有女主,非独狼玩家,每天18点更新,追求开局爽文慎入。职业玩家......
《春喜》作者:宋昭补齐番外86-97文案夏竹从小在蜜罐里长大,要什么有什么,唯独对一个人求之不得。许默上大学有个除了家庭条件差点,其他都跟他相匹配的女朋友,夏竹在长辈的默许下有意破坏了这段关系。脾气向来温和的许默知道后大发雷霆,没多久就切断国内所有联系,一个人远走异国他乡。夏死乞白赖跟到机场拉住他不放,许默手提行李箱,穿...
因为一个渣女而改变一生,被骗钱,被骗感情,为了要报仇雪恨,不远万里来踏入不一样的世界,认识不同的人而改变自己的人生!......