登陆注册
87143500000018

第18章 艮山

第一幕

旁白:坎德拉仔细看了周启源发给他的那篇文章之后,总算完成了 Pycharm 的配置。这次,他再次联系到了周启源看,他有一个不情之请。

场景:微信聊天(坎德拉&周启源)

坎德拉:“我实在是不知道怎么说出口,但我们的团队,正在研究一个汉语言处理的项目。看了您的论文之后,也深深地被您这种创新、打破传统的做法和精神所折服。我很想推广您的见解,以及对汉语言处理的杰出贡献。但自己又很不甘心,会因为在编程这一块而夭折。”

“真的是非常抱歉,我也知道我的请求非常地让别人为难,但实在是没有办法。您的方法太好了,我们的团队,真心地期望您的方法能够广为宣传。因此,我们打算写一篇论文,发到IEEE上。但真的很遗憾,我们的团队暂时没有能力,来编程实现您在论文中,描述的方法。我们真的很不甘心,这个推广汉语言处理新方法的机会,从我们的指尖,悄悄流逝。”

“因此,能否请您,将您的代码借给我们一阅呢?我知道我的这种要求很无礼,如果您拒绝,我们也表示理解。谢谢了,真的很感谢您。”

周启源心想:开源之人,路见不平拔刀相助,更何况他如此低声下气地来求我。而且,他的目的,也很纯洁,就是想单纯地推广我的方法。如果能够让我的方法,造福更多的人,我很乐意去帮助他。

周启源:“哈哈,你不用这么客气的。大家都是同学,互相帮助是应该的。你打算写一篇什么样的论文呢?”

坎德拉:“嗯,就是泰迪杯第一问嘛,不是有一个文本分类问题吗?”

周启源:“是的”

坎德拉:“您的那种,用二元语法,将连续两个汉字弄成一个特征,然后用卡方检验过滤,再用词袋模型,转换为特征向量的方法,十分新颖”

周启源:“是啊,不仅新颖,而且效果也很好。我计算出来的 F1 值,测试集有 0.9 呢”

“不过,你要写论文的话,最好把我那种筛选模型的方法也写下去。我读过很过论文,无论是中国、还是外国,都有一个缺点。就是没有通过验证,就直接拿某个模型来使用。特别是汉语言处理这一块,前人发现,用贝叶斯分类器,解决英文的 NLP 很好。于是,人们就‘惯性’地用贝叶斯分类器,来解决汉 NLP,这是不对的”

“汉 NLP 与英 NLP 有很大差别。首先汉语要分词,关于如何分词,就众说纷纭了,此时其一。其二是汉语言的停用词,很难区分。所以,汉 NLP 其实是一个独立于英 NLP 的全新领域。这种惯性思维不应该存在”

“我在论文中,就有详细谈到。我用了网格寻优、交叉验证,从几乎所有的机器学习模型中,筛选出了最好四个模型:贝叶斯分类、SVC、逻辑回归、AdaBoost。然后结合实际应用,将 AdaBoost 排除,因为它太大、太慢了”

“其实,这个结果也意味着,传统观念,即贝叶斯分类器在 NLP 上有用,是不太正确的。SVC、逻辑回归照样能够有一个好结果,而且它们占用的空间也非常之小。小道足够嵌入到芯片中(也就是 SOC 技术)”

“可就是有这么一些人,特别是现在,脑子也不用,就直接‘神经网络’。我在那篇论文里,也用了神经网络,结果效果实在太差,而且运算量、占用的空间也很大。比之 Adaboost,可谓有过之而无不及。真不知道,其他论文里的那些结果数据,是怎么吹出来的”

“神经网络不是万能的,而且世界是进步的,不要故步自封,自欺欺人,这一点请你记住。以后如果成为一名数据分析师,希望能够常常记住我这一句话:flashy and rehearsed routine can not fit in with broken rhythm”

“假设我的帮助和理论,对你以后的发展有所帮助,那么也请希望你能够将心比心,将我的理念传授给他人。让更多的人,能够有这样的思维”

“这,就是我把代码交给你的唯一条件,你能接受吗?”

坎德拉:“当然,一定抱拳

周启源:“好,我的代码比较复杂,我先给代价加上一些必要的注释,再发给你。”

坎德拉:“嗯,谢谢了”

落幕

第二幕

旁白:网友兔子啦按照周启源的方法,给样本数量较少的类别,增加了大权重。然而,依旧效果并不好......

场景:QQ 聊天(兔子啦&周启源)

兔子啦:“我试了一下,用 SVC,调节了样本权重,但效果一般,准确率60%”

“唉呀算了算了,就这样了”

“反正社科类的又不可能跟科研的比”

周启源:“能交差就好[笑哭]”

“你们公司都用的 sklearn 吗?”

“好奇葩[冒汗]”

兔子啦:“他们用 R 语言,那个什么破服务器又不能连网,只有用 sklearn,也是奇葩。感觉 sklearn 的动不动就过拟合了。”

周启源:“sklearn 毕竟是别人写的,里面的算法,总是不合人意。如果能够自己写的话,就自己写吧。”

“用 sklearn 感觉我们就像搬砖头的,把一堆代码挪啊挪”

兔子啦:“而且参数设置也不太好设置”

“刚刚看了,估计 60%的准确率可能是因为 SVC 把所有的都预测成一类了[泪崩]”

“简直颠覆建模的三观”

周启源:[emmmm,挠屁股].JPG

“用欠采样或者过采样吧?”

兔子啦:“那个 imblearn 又下载不了,额滴神啊”

周启源:“自己写一个吧,我把 SMOTE 的原理发给你。”

(注:SMOTE 是过采样的一种)

兔子啦:“嗯,只能这样了[泪崩]”

旁白:过了大约两个小时......

兔子啦:“过采样管用,查全率大幅提升”

周启源:“哈哈,没错吧”

兔子啦:“smote 过采样,样本加权可以把 recall 弄得很高”

周启源:“很高就行了”

“case closed”

“congratulation!”

兔子啦:“OK,没有用交叉验证,可能有点不稳定,不过就这样了”

周启源:“对了,你觉得用回归的时候,效果不好,会不会是‘分布不均衡’啊?”

“你想啊,咱们把它当做分类问题处理后,会类别不均衡。而且就因为这个,才效果不好的”

“那么,在没有经过任何处理的时候,它是一个预测连续数值型因变量,也就是回归问题”

兔子啦:“嗯嗯,怎么了”

周启源:“所以我觉得,因变量呈现的分布不是均匀分布,这才导致了我们模型效果不好”

兔子啦:“听你这么说,有点道理”

周启源:“我给它取了一个名字,叫回归的‘分布不均衡问题’。我想,我们现在正在打开一个新的学科!如果真的查出来,‘分布不均衡问题’会影响模型的效果。那么,机器学习,甚至整个 AI 领域的知识,我想都会被这个发现,重新改写”

兔子啦:“emmmmm,有点意思。”

周启源:“你不打算将它还原为回归问题,再做一下吗?”

兔子啦:“哎,没时间了,项目要截止了,得过且过吧,而且甲方也说行了”

周启源:“好吧,我不难为你,你的数据集是从网上找的吗?方不方便把链接给我看看呢,我想研究一下,看看真的是不是‘分布不均衡问题’。说不定,我们将会成为新领域的看山鼻祖,写在教科书上”

兔子啦:“[呆滞]要是我把数据集给了你,明天就被请去喝茶了,吃皇粮了”

周启源:“啊,不是从网上找的么”

兔子啦:“公司项目啦,机密数据,连上网都没可能的”

“三令五申,天天耳边念,都听起茧子了”

“不是网上找的,网上找的就给你咯”

周启源:“哦,你之前说网上找的,我有点误会了”

兔子啦:“360度无死角全方位监控服务,想造个假都没可能”

周启源:“[出糗]好惨”

兔子啦:“好惨,回家还要被蹂躏”

周启源:“。。好辛苦”

兔子啦:“是啊,都上演白发魔女传了”

周启源:“搞 IT 的都不容易啊[哭]”

旁白:两人寒暄了之后,就各自分道扬镳了

周启源心想:哎,如果能够让我拿到数据,那么一个新的发现,就有可能诞生了。我不怪兔子啦,要怪就怪那些企业,那些公司,为什么把我们崇尚自由的 IT 人员,当成绵羊圈养?

“分布不均衡”,一想到一个新的理论,跟我失之交臂,我的心就像被针刺了一样。一个刚起步的学科,如果业内的人都故步自封,是很难进步的,很难!!

(长叹下)

落幕

同类推荐
  • 谜之梨

    谜之梨

    结一个梨,死一个人。这棵梨树成精了??究竟是真是假,赶快随我看看
  • 小白兔红耳朵

    小白兔红耳朵

    无论前路是否崎岖,无论内心是否迷茫。田甜也想再体会一下这百味人生,呀呀呀,说这些咋这么没意思呢,走咯...毕竟,这生活嘛,还是自己过着比听别人说的有意思多了,但是为啥这喝过的水,趟过的河,这这这...熟悉的甜味咋就一直跟着自己呢,这也没认错人呀......
  • 幻儿萌萌哒

    幻儿萌萌哒

    如果有一天你睡了一下午,醒的时候屋子里黑漆漆,一点声音都没有,抬头望了望窗外,天还没完全黑,四处摸了摸,在枕头下找到手机,开打后屏幕亮起,干净,没有一条信息。
  • 致敬艺术

    致敬艺术

    本文介绍当我们面临现实生活的情况下是选择梦想还是选择生存。
  • 白纸红章落笔成殇

    白纸红章落笔成殇

    离婚,是当代中国婚姻最习以为常的话题,但多少婚姻没有毁于贫穷、没有毁于出轨、没有毁于伤害却往往毁于不能相容的心态。从事婚姻咨询十年,当婚姻走到终点的时候,白纸红章,落笔成殇,总想为中国式婚姻的悲剧做点什么有意义的改善,才有了接下来分享的感悟体验,两个人的婚姻,一个孩子的未来,婚姻不易,存在且珍惜。谨以此祭奠逝去的爱情,愿世间良善和一切的情感不再步入后尘。
热门推荐
  • 从斗罗开始的万界

    从斗罗开始的万界

    转世重生,身份逆天,本源融合,一路开挂,各界穿梭,我唐舞曦便是这万界之主!
  • 顾先生待我如宝

    顾先生待我如宝

    (这是个披着虐外套的宠文!)“苏凝就是个废物!”“苏凝太恶毒了,诬陷妹妹,连亲妈都打。”“她这样的人,就该滚出南城。”一场宴会,所有人围着坐在轮椅上的苏凝大骂,冷漠阴狠的顾家先生突然出现,把她护在怀里,“她是我老婆,他妈的!谁敢动她,试试!”四年前,她因他废了双腿,绝望地离开南城。四年后,她执意嫁给他为妻。所有人都等着顾景琛把她再次甩了,然而没有人知道,顾先生设了整整四年的局,只为她能回到身边。直到后来,他宠苏凝到极致入魔的地步,南城人才发现,顾先生有病,宠起老婆不要命!
  • 拼接梦境之中阴之地

    拼接梦境之中阴之地

    你的梦不是真实的吗?每个人的梦都是真实的,现实和梦境只是二维和三维的关系,既然二维是真实的,三维也是真实的,而成神则是四维是不是真实的?现实和梦境中是否隐藏着第四维空间的通路呢?
  • 盛宠豪门少夫人

    盛宠豪门少夫人

    母亲尸骨未寒,父亲带着小三和私生子女登堂入室,渣女更是夺了她未婚夫,让她代嫁傻子。无奈,她忍着恨,下嫁慕家!某男睁着一双漂亮的桃花眼说:“陌陌,我妈说要我跟你生个胖娃娃。”等某女回神已是大腹便便,什么情况?说好的傻瓜呢!
  • 乌鸦修仙传

    乌鸦修仙传

    不过只是一只乌鸦,连灵兽都算不上,还妄想什么修仙
  • 炫风:中国明星城市发展史

    炫风:中国明星城市发展史

    某种意义而言,21世纪国际竞争既不是企业也不是国家,而是各具特色的城市圈。没有城市圈的形成和崛起,没有发达的大城市做后盾,没有人口和产业聚集以及城市的高度文明,毫无疑问这是一个很难在国际市场上获得竞争力的国家。
  • 我在游戏世界当NPC

    我在游戏世界当NPC

    【新书《军团养成计划》已发】一不小心穿越成了游戏世界的一名NPC,逐渐成长为游戏世界的主神,却有着普通NPC没有的东西,面对着眼前众多鲜嫩的玩家和美丽的NPC导师(误!),周洋表示他有一个大胆的想法……欢迎加入书友群【895262194】
  • 热血战神

    热血战神

    我生为王,无限嚣张!驰骋天下,举世无双!那一年,我血洗苍州,只为沉冤得雪!那一年,我覆手翻云,只为佳人一笑!
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 暴风雨的爱恨

    暴风雨的爱恨

    一场的暴风雨,又一场的虐心爱情,背负着以前的阴影,却又爱上了恨之入骨的人,彼此该如何选择?